Suchergebnisse für "META"
2026-04-25
02:41

Meta setzt Millionen von AWS Graviton-Chips für KI-Workloads ein

Gate News Nachricht, 25. April — Amazon gab am 24. April bekannt, dass Meta Millionen von AWS Graviton-Chips für KI-Workloads einsetzen wird, was einen bedeutenden Kundenerfolg für die hausinternen ARM-basierten Prozessoren von AWS darstellt. Die Chips werden für KI-Inferenz und allgemeines Computing verwendet, anstatt
Mehr
12:10

Meta will in einem mehrjährigen Milliarden-Deal Zehntausende Millionen AWS-Graviton5-Chips einsetzen

Gate News Nachricht, 24. April — Meta hat eine mehrjährige Vereinbarung mit Amazon Web Services unterzeichnet, um für seine KI-Infrastruktur Zehntausende Millionen Graviton5-Prozessoren einzusetzen, wodurch Meta zu einem der größten Graviton-Kunden von AWS weltweit wird. Das Geschäft, das drei bis fünf Jahre umfasst, ist laut AWS-Vizepräsident Nafea Bshara Milliarden von Dollar wert.
Mehr
03:21

DeepSeek: Trainingsdaten für V4 auf 33T verdoppelt, Instabilität ausgelöst, die die Veröffentlichung verzögerte

Gate News-Mitteilung, 24. April — Der technische Bericht von DeepSeek über V4 zeigt, dass V4-Flash und V4-Pro jeweils auf 32T- bzw. 33T-Token vortrainiert wurden, also doppelt so viele wie die ungefähr 15T-Token, die für V3 verwendet wurden. Der Bericht räumt ein, dass es während des Trainings zu „erheblichen Instabilitätsproblemen“ kam, wobei es wiederholt zu Verlust-Spikes kam, die auf Anomalien in der Mixture-of-Experts MoE-Schicht zurückzuführen sind; der Routing-Mechanismus selbst verschärft diese Anomalien, und ein simples Rollback kann das Problem nicht beheben. DeepSeek hat jetzt zwei Lösungen implementiert, die im tatsächlichen Training eingesetzt werden: Antizipatives Routing, das die Berechnung des Routing-Index von Updates des Backbone-Netzwerks entkoppelt und automatisch nur dann auslöst, wenn Verlust-Spikes erkannt werden wobei ein zusätzlicher Overhead von etwa 20% entsteht, sowie SwiGLU-Clamping, das Anomalien direkt unterdrückt, indem Aktivierungswerte auf einen festen Wertebereich eingeklemmt werden. Der Bericht besagt, dass beide Ansätze wirksam sind, räumt jedoch ein: „Die zugrunde liegenden Prinzipien sind weiterhin nicht ausreichend verstanden.“ Susan Zhang, eine Forscherin bei Google DeepMind, die zuvor bei Meta AI und OpenAI gearbeitet hat, kommentierte, dass die Instabilität, die durch das Verdoppeln der Trainingsdaten ausgelöst wurde, „die Verzögerung erklärt.“ Sie bezeichnete die beiden Lösungen als „Pflaster“, während sie zugleich anerkennt, wie transparent DeepSeek technisch ist.
Mehr
07:41

Australischer Milliardär Forrest stellt Meta's Section-230-Verteidigung wegen Betrugsanzeigen in Frage, die sein Bild verwenden

Andrew Forrest verklagt Meta und macht geltend, das Unternehmen könne sich nicht auf den Schutz aus Section 230 berufen, um sich von der Haftung für irreführende Anzeigen freizuzeichnen, die sein Bild verwenden, um Betrügereien zu bewerben. Ein Richter ließ seine Klagen zu, was möglicherweise die Section-230-Verteidigungen für Plattformen in Bezug auf Anzeigen Dritter verschärft.
Mehr