KI-Rechenwerke für CPU-Kerne | Bit-Rauschen 2026/3
Shownotes
Apple hat Matrix-Rechenwerke schon längst in die Prozessorkerne der M-Prozessoren eingebaut. 2026 folgen der ARM-Chip Snapdragon X2 und nach 2027 wohl x86-Prozessoren von AMD und Intel.
Es überrascht, dass nun auch Prozessorkerne – also CPU-Kerne – zusätzliche KI-Rechenwerke bekommen. Denn solche stecken ja bereits in Grafikprozessoren (GPUs) und Neural Processing Units alias NPUs. Und die wiederum sind in modernen Systems-on-Chip bereits integriert.
Weshalb auch CPU-Kerne Matrix-Rechenwerke erhalten, besprechen die c’t-Redakteure Carsten Spille und Christof Windeck: Folge 2026/3 von Bit-Rauschen, der Prozessor-Podcast von c’t.
Alle Podcast-Folgen sowie auch alle c’t-Kolumnen "Bit-Rauschen" finden Sie unter ct.de/bit-rauschen
Noch mehr Lust auf Podcasts? Hier finden Sie noch viele weitere aus dem Heise-Universum: Hören Sie von uns – unsere Podcasts
Transkript anzeigen
00:00:00: Herzlich willkommen zu Bittrauschen, der Prozessor-Podcast von CT.
00:00:06: In dieser Folge sprechen wir über Matrix-Rechenwerke für CPU-Kerne.
00:00:12: Hört sich kompliziert an, ist aber ein neuer Trend, um KI-Algorithmen schneller zu verarbeiten.
00:00:20: Apple führt derzeit, verwirrt aber auch, weil diese Matrix-Funktionseinheiten auch in anderen Funktionsblöcken, moderner Systems und Chips oder Prozessoren auftauchen.
00:00:32: In der GPU, also im Grafikkern gleich mehrfach, in der NPU, der Neural Processing Unit, wo man sie vermuten würde und nun aber eben auch noch in der CPU.
00:00:43: Wir entwirren das Verwirrspiel.
00:00:45: Bis gleich!
00:01:03: Hallo, mein Name ist Christoph Indeck.
00:01:06: Heute spreche ich mit meinem CT-Kollegen Carsten Spille, der sich außer mit Prozessoren auch mit Grafikkarten auskennt und daher notgedrohen ganz viel über KI-Rechenwerke weiß.
00:01:17: Hallo Carsten.
00:01:19: Moin Christoph, ja, notgedrohen ist gut.
00:01:22: Die kamen da ja irgendwann mal auf und ja, damals habe ich noch gedacht, na, was das wohl wird und man musste sich ja damit beschäftigen und ja.
00:01:32: hat sich ja gelohnt im Nachhinein.
00:01:34: Ja, ich habe auch, kann ich ja jetzt verraten, es ist glaube ich jetzt schon fast drei Jahre her, den ersten größeren Artikel über KI-Rechenwerke habe ich mich immer gefürchtet, weil ich echt nichts verstanden habe.
00:01:45: Und mittlerweile, wir reden ja sehr viel darüber über KI und was man überhaupt messen kann und was nicht, fühlen wir uns doch etwas sicherer.
00:01:55: Und vielleicht habe ich sogar ein bisschen verstanden, wie KI geht.
00:02:02: Bei diesen einfachen Entwicklungen wie den den Sprungvorhersage Einheiten oder das Scharfstellen vom Smartphone beziehungsweise richtigen Kamera.
00:02:15: Da glaube ich habe ich mittlerweile so ein bisschen verstanden, also sogar ein bisschen tiefer verstanden, wie die Algorithmen funktionieren.
00:02:20: Aber bei diesen LLMs dieses Gerate über Filter ist mir immer noch fremd.
00:02:26: Ich bin halt kein Softwerker.
00:02:27: Ich weiß nicht, wie es dir geht.
00:02:29: Aber.
00:02:30: Wir reden ja vor allem über die Rechenwerke, ne?
00:02:32: Ja, zum Glück.
00:02:34: Ja, okay.
00:02:35: Ich weiß schon, was du damit sagen willst.
00:02:38: Gerade vorhin habe ich noch über diese blöden Formate, KI-Daten-Formate meditiert, weil ja Intel einen neuen Prozessor vorgestellt hat, den Panther Lake.
00:02:49: Und da haben sie jetzt die NPU verbessert.
00:02:51: Da sind wir ja schon fast mit dem Thema.
00:02:53: Aber wir kommen gleich wieder auf den roten Faden.
00:02:56: Ich wollte nur sagen, dieses Thema ist so vielfältig.
00:03:00: Und dann habe ich echt überlegt, ja, jetzt können die gerade hatte mir Keno.
00:03:04: Unser geschätzter Kollege von CT.
00:03:06: Drei Tausend drei, der uns immer mit seinen KI Sachen wie soll man das sagen?
00:03:10: Ich möchte jetzt nicht nervt sagen, inspiriert.
00:03:13: Ja, er wieder erklärt, dass FP vier der heiße Scheiß ist, also Floating Point vier, Kleidkommazahlen mit vier mit vier Bit.
00:03:24: Nur aber diese NPU von Intel, die kann das jetzt nicht.
00:03:28: Aber gut, das ist ja auch nicht für LLMs gedacht, also es ist total vertrackt.
00:03:32: Damit sind wir schon mitten im Thema.
00:03:33: Ich höre jetzt auf.
00:03:34: Vertrackt ist das Thema heute.
00:03:37: Fangen lieber von vorne an.
00:03:39: Ich fange mal ganz vorne an.
00:03:41: Der Name Prozessor.
00:03:43: Der deutet ja darauf hin, dass ein Chip irgendwas verarbeitet.
00:03:47: Heute sind es Chipplets und aus vielen Funktions Blöcken zusammengesetzt oder auch Systems und Chip.
00:03:54: Also, das ist ja quasi das Gegenteil von Chipplet.
00:03:56: Da sind alle möglichen Sachen auf einem Chip drauf.
00:03:59: heutige Prozessoren gibt ja einen reinen Prozessor, gibt es glaube ich noch für Server, aber selbst die haben ja schon irgendwelche IO-Einheiten auf drin.
00:04:09: Das heißt, heutige Prozessoren System und Chips sind so ein Funktionsgemisch und haben zum Beispiel vor allem CPU Kerne.
00:04:19: Teilweise selbst ja irgendwelche Mobilchips, zehn, zwölf, achtzehn.
00:04:24: Wieso braucht man da überhaupt noch spezielle KI-Rechenwerke, wenn man so viele CPU Kerne hat?
00:04:31: Ja, wenn du so fragst, da kann man mal ziemlich weit zurückgehen, die Älteren unter uns, die werden sich vielleicht noch erinnern.
00:04:41: Da gab es ja auch schon x-axis Prozessoren.
00:04:45: Und die ersten, die hatten halt noch keine FPU Floating Point Einheit.
00:04:51: Und da hat man irgendwann den Matheco-Prozessor erfunden, den man bei vielen Boards einfach in einen separaten Sockel dazustecken konnte.
00:05:00: Der hieß dann wie gesagt Floating Point Unit, kurz FPU.
00:05:04: Und der wurde zur Abgrenzung von der X-Achzig-Basis, dann X-Achzig genannt.
00:05:11: Und ich kann mich, Achtung, Anekdote, noch an mal Jungterzeit erinnern.
00:05:16: Da gab's dieses Spiel Falcon III.
00:05:19: Das sollte angeblich einen Floating-Point-Core-Prozessor benutzen.
00:05:23: Und kannst mal dreimal raten, wer sich so ein Ding für seinen Drei-Sächsen-Achziger gekauft hat und vermutlich niemals benutzt hat.
00:05:31: Und das von meinem armen Zeitungsaustragen-Schüler-Gehalt damals.
00:05:36: Naja, jedenfalls, ich wollte eigentlich auch was anderes hinaus.
00:05:40: Diese FPU-Funktionen wurden ja später von diesen separaten Chips in die eigentlichen Prozessoren integriert.
00:05:47: Bis zur Vier, Sechsten, Achtziger Generation gab es noch FPU-Lose-Versionen, Vier, Sechsten, Achtzig, SX, im Gegensatz zu DX mit FPU.
00:05:55: Und der eine oder andere Vier, Sechsten, Achtzig-Klone hatte auch keine.
00:05:59: Aber im Prinzip ... zeigt der Rückblick ja einen Allzweckprozessor, also der Prozessor an sich, der kann alles, aber manches eben nicht so schnell oder so effizient wie spezialisierte Rechenwerke.
00:06:11: Und so ist es im Grunde bei KI jetzt auch wieder.
00:06:14: Da treten bestimmte Rechenaufgaben extrem gehäuft auf und so gut wie nur diese.
00:06:19: Und wenn du da ein spezialisiertes Rechenwerk, was wirklich genau auf diese Datenmenge und die Datenbewegungen, die da nötig sind, optimiert ist, Einbaust dann kann das natürlich viel schneller und auch energieeffizienter arbeiten.
00:06:31: als zum cpu kern wo dann du hast vorhin die sprung vorhersage.
00:06:36: Die angeführt zum beispiel die auch immer sehr viel energie verbraucht.
00:06:41: und und das fonten und das die coding und so das alles für ich sag mal normale cpu aufgaben mitläuft.
00:06:48: das fällt dann da größtenteils weg.
00:06:51: Also ganz grundsätzlich kann man ja mal den gedanken noch mal.
00:06:55: vielleicht explizieren an dieser Stelle, dass man sagt, wenn man so ein Prozessor entwickelt, dann hat man ja immer ein bestimmtes Transistor-Budget, weil man einfach zu einem Zeitpunkt X auf der Welt die Fertigungstechnik Y nutzen kann.
00:07:08: Genau.
00:07:09: Und damit kann ich für Z Euro, miss jetzt bin ich am Ende, eine Fläche von A Quadrat Millimetern für den Preis B
00:07:18: bauen.
00:07:19: Und dann muss ich mir überlegen, was packe ich da drauf?
00:07:22: Und exotischere Sachen, die noch nicht so weit verbreitet sind, die lagert man vielleicht aus und integriert sie nicht in die CPU-Kerne, die ja, ich möchte ja dann immer neuen Prozessor für möglichst viele Geräte verkaufen.
00:07:33: Und wenn auf Teil der Geräte KI zum Beispiel jetzt aktuell oder früher eben Gleitkomma gar nicht genutzt wird, dann sozusagen kann ich das erstmal noch in separate Einhalten ausgliedern.
00:07:44: Und später kann ich es aber leicht integrieren, weil ja, Moore's Law, mit jeder Generation kann ich mehr Transistoren, also alle zwei Jahre, sagt man ja, ist ja nicht mehr so, aber doppelt so viele, heute hat man dafür Chipplets, kann ich vielleicht mehr Chipplets auf dem Prozessor packen und kann die Sachen integrieren.
00:08:03: So würde es man doch darstellen, dass man sagt, das wäre der Pfad, wie auch die FPU damals reingewandert ist.
00:08:10: Das wäre der Pfad.
00:08:11: und dazu kommt natürlich noch die andere, ja, der andere Aspekt.
00:08:17: Man weiß ja noch gar nicht so ganz genau, wo es mit der KI hingeht, ob da sich vielleicht noch andere Techniken etablieren und so.
00:08:23: Und wenn man da jetzt ganz viele ganz spezialisierte Schaltkreise verwendet und dann kommt irgendein Technologiewechsel, sag ich mal, dann liegen die eventuell alle brach.
00:08:35: Da gibt es ja ein sehr gutes Beispiel für, was wir alle kennen, aber wo man nicht so oft dran denkt, das sind ja diese Video-Decoder, die in Hardware dann auch in die Chips eingebaut sind.
00:08:45: Das war ja zu Impact-Zweizeiten vor dreißig Jahren oder sowas.
00:08:49: Hat man gedacht, naja Gott, Video-Decoder, das macht die Grafikkarte und so.
00:08:54: Und mittlerweile sind die ja so etabliert.
00:08:57: Mittlerweile sind die integrierten Prozessorkerne ja geradezu oft Vorreiter bei neuen.
00:09:03: Formaten wie vp neun da was man eigentlich so lange als reines youtube format gesehen hat aber es glotzt ja auch jeder youtube.
00:09:10: insofern ist es ja schlau das einzubauen
00:09:12: genau.
00:09:14: Dann würde ich jetzt aber wieder zurück zu den kei kommen.
00:09:16: ich wollte nur diesen gedanken nochmal machen um welche reichen aufgaben geht es denn jetzt bei kei konkret.
00:09:24: Also bei KI geht's eigentlich um Matrix, Matrix Multiplikation.
00:09:29: Ich hab jetzt nicht gestottert, also das heißt wirklich so, weil da eine Matrix mit einer anderen multipliziert wird und dann noch in einen Zielregister Speicher geschrieben wird.
00:09:40: Also im Prinzip nennt man das Matrix Multiplier Accumulate oder kurz MAC.
00:09:46: Okay, und deswegen spricht man auch von Matrix Einhalten?
00:09:49: Ja, genau.
00:09:51: Und müsste es eigentlich nicht im deutschen Matritzeneinhalten heißen, weil es immer um Meere geht?
00:09:57: Ja,
00:09:58: wenn du ganz pälzlich sein willst, dann kann man das vielleicht so eindeutschen.
00:10:03: Aber ganz ehrlich, sagst du Vektoreneinheiten oder sagst du Vektoreinheiten?
00:10:07: Ja, ich habe gestern noch ein Ortlein beantwortet und habe über nach Berührspannung gesucht.
00:10:14: Dann habe ich nach Berührungsspannung gesucht, aber am Ende war es der Berührstrom, den ich gesucht habe.
00:10:21: Manchmal macht es die Eindeutschung auch komplizierter als nötig.
00:10:25: Genau.
00:10:26: Ich hatte gerade mit Lutz darüber diskutiert, weil er was geschrieben hat.
00:10:29: Übrigens eine Empfehlung für CT-Leser und Leserinnen.
00:10:32: Bald kommt was zu Tape.
00:10:35: Das heißt ja auf Deutsch Band.
00:10:36: Gemeint ist aber die Bandkassette.
00:10:38: Und dann ist auf diesem Tape im Englischen Bänder, also Bereiche auf dem Band.
00:10:44: Die dann wiederum Band heißen im Englischen.
00:10:47: und ich war so konfuss nach der Weile das nichts mehr verstanden habe.
00:10:52: Und habe ich mit Lutz in die Haare bekommen wie man das jetzt nennen soll.
00:10:56: Also Matrix einhalten und diese Matrix Multiplikationen die können die bisherigen CPU Kerne nicht so gut.
00:11:04: Nicht so gut ist richtig, also sie können das im Prinzip natürlich schon, aber wie schon gesagt eben nicht so besonders effizient und sind daher im Endeffekt auch nicht besonders schnell dabei.
00:11:15: Typischerweise verwendet man dazu die Advanced Vector Extensions, also die Vektoreneinheiten oder Vektoreinheiten, AVX, bei ARM heißen sie dann Scalable Vector Extensions oder SVE, aber die sind halt eigentlich für Vektoren gedacht.
00:11:31: Nun kann man mit ein bisschen wohl wollen, auch eine Matrix als Ansammlung von solchen Vektoren betrachten, also Zeilen oder Spaltenvektoren.
00:11:39: Und dann die Vektoreinheiten da quasi rein hemmern, dass sie das trotzdem machen müssen, auch wenn sie es eigentlich nicht so gut können.
00:11:50: Arm leitet daraus auch eine interessante Beschreibung ab.
00:11:56: hat auch einen Betriebsmodus, der heißt Streaming SVE, wobei SVE wiederum für Scalable Vector Extension steht.
00:12:06: Also kann man vielleicht nicht mathematisch, aber in diesem Kontext bestimmten Matritzen sozusagen als ein Strom von Vektoren betrachten.
00:12:14: Und bei der Effizienz, da geht es noch um was anderes, nämlich um die verschiedenen Datentypen, für die man die Rechenwerke optimiert.
00:12:22: Und bei KI, das hat sich ja mittlerweile ein bisschen durchgesetzt, hat man Berechnungsmethoden gefunden, die mit vergleichsweise sehr niedrigen Bitzahlen pro Wert auskommen.
00:12:35: Also wir sind hier tatsächlich bei Leitkommarwerten von sechzehn oder acht oder sogar vier Bit inzwischen, hast du ja vorhin schon gesagt, und auch Ganzzahlwerte, Integer acht zum Beispiel, ist ein verbreitetes Format.
00:12:52: Okay, und damit kann ich halt die Datenmassen, die da durchgeackert werden müssen, erheblich eindampfen, aber auch den Speicherplatz.
00:13:02: Das haben wir ja schon oft erklärt.
00:13:04: Es geht nicht um den Platz weniger, um den Platz auf der Platte.
00:13:08: Der ist ja eigentlich egal, aber es geht ja um den Platz im Ram.
00:13:11: Und welche Rammengen ich überhaupt brauche, um eben diese ganzen Gewichte von so einem riesigen KI-Modell im Ram oder sogar im Grafikspeicher halten zu können.
00:13:22: So, sonst wird's halt wahnsinnig langsam, wenn der da irgendwie auslagern muss.
00:13:27: Und die Antworten kommen halt ganz selten.
00:13:30: Oder viel langsamer.
00:13:32: Selten ist ja Quatsch, also langsamer.
00:13:35: Na ja, auf jeden Fall ganz
00:13:37: selten.
00:13:39: Diese KI-Rechenwerke, über die wir jetzt gesprochen haben, wenn ich jetzt mal zum Beispiel eins habe, was eben, was weiß ich, FP-VI und FP-Acht kann, das kann dann wirklich nur das und keine anderen Zahlenwerte?
00:13:53: Das ist unterschiedlich.
00:13:56: Größere Datenwörter fressen die meist gar nicht, also das typische FP-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW-PW.
00:14:15: Angabe, die bei Supercomputern und High Performance Computing zum Beispiel genutzt und teilweise in wissenschaftlichen oder technischen Anwendungen gebraucht wird.
00:14:25: Kürzere Datenformate, also weniger als sechzehn oder acht Bit, also dann zum Beispiel FPvier oder es gibt noch FP sechs, die funktionieren typischerweise.
00:14:35: Und hier kommt es ein bisschen auf die Rechenwerke an, wie die gebaut sind.
00:14:38: Bei manchen füllt das System einfach die fehlenden Stellen mit Nullen auf.
00:14:42: Das läuft dann ebenso schnell wie mit zum Beispiel FPV, läuft dann ebenso schnell wie mit FP-Acht.
00:14:47: Und es gibt dann keinen Performancegewinn durch die Niesträdergenauigkeit.
00:14:52: Allerdings spart man natürlich Platz im Speicher und so weiter, weil die Nullen ja nicht separat Platz belegen sozusagen, die werden einfach nur aufgefüllt.
00:15:04: Und andere Rechenwerke wiederum, zum Beispiel bei den neuen beschleuniger Generationen von NVIDIA und AMD, die ziehen aus FPV dann auch abseits des gesparten Speicherplatzes einen echten Geschwindigkeitsvorteil.
00:15:16: Okay, also es geht darum, dass man wirklich dadurch, dass man eben kleinere Datenformate, dass das Rechenwerk diese Datenformate wirklich nativ quasi verarbeiten kann.
00:15:30: hat es ein Performance Vorteil.
00:15:31: Es kann dann sozusagen doppelt so viele FPV-Daten pro Tuck-Schritt verarbeiten wie FPV-Acht.
00:15:37: Das ist der eigentliche Kern-Trick, oder?
00:15:39: Das wäre der Idealzustand genau.
00:15:42: Ja, okay, dass das nicht immer klappt.
00:15:44: Wir reden ja hier immer, ist ein guter Hinweis.
00:15:47: So wie wir ja bei RAM auch sagen, DDR-Zwölf, äh, Quatsch, DDR-Zwölf, was red ich da?
00:15:52: Also DDR-Zwölf, so weit sind wir noch nicht.
00:15:55: DDR-Zwölf, ich glaube ich DDR-Zwölf.
00:15:59: Wie bist du gemein?
00:16:00: Der hat dann eben hier drei Komma zwei Giga hat es takt mal zwei Double Data Rate also sechs Komma vier Giga Transfers pro Sekunde.
00:16:12: Aber die habe ich natürlich nicht immer, sondern nur im Idealfall.
00:16:15: Wenn ich kürzere Datenwerte abrufe, dann passt es natürlich nicht.
00:16:19: Wenn ich den Refresh machen muss, passt es nicht.
00:16:21: Klar, das sind immer die Idealzustände, die.
00:16:24: Die uns der gute Jens Rang die Lederjacke von Nvidia immer um die Ohren haut.
00:16:29: Ich weiß nicht, wir gehen heute mal nicht auf dünn besetze Matritzen ein, wo er immer noch Faktor zwei noch raus ist.
00:16:37: Ein dünn Matritzenrechner.
00:16:39: Okay, kannst du das noch ein bisschen genauer drauf eingehen, wofür man diese Werte überhaupt braucht?
00:16:44: Also um was geht es denn eigentlich bei diesen komischen FP-Sachen?
00:16:49: Wir haben das ja auch schon ein paar mal im Podcast angerissen, aber es hat tatsächlich auch nicht jeder oder jede Parade immer.
00:16:55: Also bei großen KI-Modellen, diese sogenannten Large Language Models oder LLMs, die haben ja mehrere hundert Milliarden Gewichte, teilweise auch sogar schon Billionen, die sogenannten weights.
00:17:10: Kann man die sich eigentlich als Filterkoeffizienten so ein bisschen vorstellen?
00:17:14: Ja, könnte man wohl so sagen, ja.
00:17:18: Okay.
00:17:19: Und je mehr diese Gewichte, also Anfragen durch diese Gewichtsbäume laufen, desto genauer werden die Ergebnisse oder Antworten ja auch immer besser und genauer.
00:17:31: Und da natürlich dann mehr Rechenleistung, mehr Speicherplatz verbraucht wird, werden die KI-Rechenzentren auch immer risiker und schlucken unglaublich viel Energie.
00:17:42: Aber wer jetzt auf einem normalen PC oder Smartphone KI nutzen will, nutzt natürlich nicht in diesem Sinne large Language Models, außer natürlich man greift per Cloud Interface, also per Webdienst darauf zu.
00:17:57: Aber wenn man lokal irgendwas laufen lassen will, dann braucht man natürlich mehrere Größenordnungen, kleinere Modelle.
00:18:05: Und man will natürlich nicht einfach sagen, ja, das ist dann nur halb so gut, also statt, keine Ahnung, neunzig Prozent richtig, liegt es dann nur vierzig Prozent richtig, mit halben Speicherplatz, jetzt.
00:18:15: hat es ganz grobe Milchmädchenrechnung.
00:18:19: Sondern man möchte natürlich möglichst viel von der Antwortgenauigkeit erhalten.
00:18:23: Und da gibt es sehr, sehr viele Tricks, die Speicher- und Rechenbedarf eindampfen können.
00:18:30: Einer der stärksten Hebel ist dabei die sogenannte Quantisierung.
00:18:34: Denn wenn man, wie gesagt, mit ungenaueren Werten rechnet, also mit Statt nach Zweiundreißig, mit Leitkommazahl eine mit nur vier Bit, also FPV statt FPZweiundreißig, können die mit ein bisschen Magie, aber das führt jetzt zu weit.
00:18:49: Also es ist nicht nur einfach, dass man die Präzision runter setzt und es funktioniert trotzdem noch, sondern da wird noch allerhand Aufwand getrieben bei der Quantisierung.
00:18:59: Okay.
00:19:01: Ja.
00:19:02: Ich wollte nur sagen, man kann sozusagen, du hast es gerade so ein bisschen implizit gesagt.
00:19:06: Das heißt, man könnte ja auch die Anzahl der Gewichte reduzieren, aber dann wird das Modell deutlich ungenauer.
00:19:13: Das heißt man, es ist hier so eine Art Trade-off-Kompromiss.
00:19:17: Das heißt man behält möglichst viele Gewichte dabei, macht die aber ungenauer.
00:19:22: Also packt die in kleinere Zahlenwerte rein und das erhält die Genauigkeit besser, als die Gewichte eben wegzulassen.
00:19:31: Im Prinzip ja, also innerhalb einer Modell-Familie.
00:19:35: Natürlich,
00:19:35: du kannst die Modelle untereinander.
00:19:37: Nein, nein.
00:19:37: Das Team
00:19:37: mit einem Cloud-Vergleichen.
00:19:39: Nein,
00:19:39: genau.
00:19:40: Da liegt ja der eigentliche Trick dann auf der Software-Ebene.
00:19:43: Weswegen wir ja eingangs beide gesagt haben, das ist genau nicht unser Business.
00:19:47: Da kennen wir uns beide nicht so gut aus.
00:19:50: Aber eben hier bei der Hardware ist das jedenfalls die Kernidee.
00:19:54: Ja.
00:19:54: Und bei dieser Quantisierung spart man halt entsprechend auch Speicherplatz.
00:19:58: Wie gesagt, wenn ich von FPZwein Reisigt.
00:20:00: macht keiner, aber zur FPVer gehen, dann würde ich Faktor Acht beim Speicherplatz sparen.
00:20:05: Das sieht man auch, wenn man jetzt keine Ahnung irgendwas, es hofft wie LLM Studio nimmt oder so und dann verschiedene Quantisierung runter lädt, sieht man schon an den Dateigrößen, dass es dann halb so groß ist zum Beispiel oder so groß.
00:20:18: Klar,
00:20:18: klar.
00:20:19: Und dann können sie eben auch so schnell resten, ne?
00:20:21: Genau, wenn, wie vorhin angedeutet, wenn die ... Rechenwerke, die Matrix-Rechenwerke dann mit fpv in Anführungszeichen richtig umgehen können, dann verarbeiten sie pro Tag zyklos auch achtmal so viele davon wie von zum Beispiel fpv.
00:20:36: Und genau daher kommen ja auch diese wahnsinnig hohen und auch sehr eindruckenden Leistungsangaben bei den Europe Processing Units, also forty-fünf Terra Ops, was für den Copilot Plus quasi die Voraussetzung ist, um diesen Microsoft Marketing Stempel zu bekommen und eine Taste auf dem Keyboard umlabeln zu dürfen.
00:20:55: Das sind tatsächlich, also, von uns vierzig Billionen Rechenschritte pro Sekunde.
00:21:01: Okay, das ist wirklich irre, diese Zahl.
00:21:03: Aber das gilt dann eben nur und die nehmen ja jeweils typischerweise, weil es dann die größte Zahl gibt, ihren ungenausten Rechenwert, auf den sie das beziehen, üblicherweise.
00:21:15: Ja,
00:21:15: also ich weiß nicht, ob Microsoft da intern noch irgendwelche Vorgaben macht, wie man das ausrechnen darf, aber im Marketingmaterial, womit wir ja auch dauernd bombardiert werden, Da nehmen die Hersteller schon die ungenausten Werte, die sie ihre Rechenwerke noch raushauen können und schreiben dann da Terrorabs dran.
00:21:34: Und jetzt kommen wir noch mal zur Lederjacke.
00:21:38: Manche schreiben dann halt auch noch gerne die verdoppelte Anzahl bei dünn besetzten Matritzen rein.
00:21:43: Genau.
00:21:43: Da sind aber schon Spezialeinheiten auch drin, kleine, die diese Matritzen dann eben entsprechend nur die besetzten Werte rausfiltern, oder?
00:21:51: Ja, genau.
00:21:52: Gut, aber das funktioniert natürlich nur, wenn sie wirklich dünn genug besetzt sind mit diesem Faktor zwei.
00:21:57: Also an jeder Stelle ist hier ein bisschen, wie soll man sagen, Marketing-Schwanzes mit drin.
00:22:03: Immer ein Best-To davor denken.
00:22:05: Ja, aber selbst die Hälfte von forty-fünf Billionen Operationen pro Sekunde, also Operations-Terror, Operations per Second, ist ja schon eine Menge.
00:22:14: Also wir wollen jetzt hier nicht kleinlich sein.
00:22:17: Ja, vor allen Dingen sind das ja nur die NPUs und die laufen ja auch in Mobilprozessoren, also für Notebooks und so, mit sehr begrenztem Powerbudget.
00:22:27: Die haben nur ein paar Watt, ne?
00:22:29: Ja, fünf bis zehn so, pimal Daumen.
00:22:31: Okay.
00:22:32: Ja gut, das hört sich jetzt erst mal sehr wenig an dafür, dass man forty-fünf Billionen Operationen daraus holt.
00:22:38: Allerdings muss man sich ja klarmachen, wenn ich ein zwanzig Kern Prozessor habe mit mit hundert Watt, dann hat ja jeder Kern auch nur fünf Watt.
00:22:46: Ähm, unter, unter Verlast, ne?
00:22:49: Im Schnitt.
00:22:49: Aber keine forty-fünf-Teraups.
00:22:51: Nicht keine, genau.
00:22:52: Das ist genau der Effizienzgewinn.
00:22:54: Der kann ebenweiler mit diesen Datenformaten nicht umgehen kann und diese Spezial-KI-Rechen, Matrix-Rechenwerke nicht hat, deswegen kann er das nicht.
00:23:01: Genau.
00:23:02: Ja, schön.
00:23:03: Da sind wir doch eigentlich...
00:23:05: Kurz mal einig.
00:23:06: Schon am Punkt, genau.
00:23:09: So, jetzt haben wir über den eigentlich ohne es zu wollen, über diese Neural Processing Units, also Neural Processing Units, auch NPU genannt, gesprochen.
00:23:21: Die waren ja zunächst bei Apple mit den A-Prozessoren fürs iPhone.
00:23:27: Da haben wir die noch nicht so richtig ernst genommen.
00:23:29: Da hat Intel die schon irgendwie KI-Rechenwerke genannt.
00:23:34: Dann gab es eine kurze Phase, wo alle total verwirrt waren und jeder hat das anders genannt.
00:23:40: Zum Glück hat sich das jetzt so ein bisschen etabliert, dass diese NPUs, nehmen wir es mal so kurz hin, Und als zusätzlicher Funktionsblock außer den CPU-Kern und der integrierten GPU, kann man auch abgekürzt IGP sagen, mit auf so einem Chip setzen.
00:24:02: Und der Witz ist ja, wenn das in so einem Chip integriert ist, da hat Apple ja früher auch ein ziemliches Boheid rumgemacht, dabei ist das gar nicht.
00:24:10: so ungewöhnlich gewesen, dass die dann alle auf dasselbe Ram zugreifen können.
00:24:14: Das sind dann meine Unified Memory Architecture.
00:24:16: Also es geht hier nicht, da ich habe es nur jetzt nochmal ganz ausdrücklich gesagt, es geht uns nicht um einen separat Chip, sondern es geht um diese Einheiten, die in diesen Mobilprozessoren, sogar in Smartphone Prozessoren, die waren ja im Grunde sogar die Vorreiter bei den NRUs.
00:24:30: Genau,
00:24:31: da waren sie ja zuerst drin.
00:24:33: Die da mit fest eingebaut sind und eben auch das das gemeinsame RAM alles mit benutzen was bei diesen KI Algorithmen ein riesen Vorteil ist, weil man sie eben nicht nochmal durch das RAM kopieren muss hin und her und weil auch diese.
00:24:49: Also heute haben ja Smartphones teilweise zwölf oder sechzehn Gigabyte RAM mehr als eine billige Grafikkarte.
00:24:55: Das heißt, ich kann da größere Modelle sogar in das RAM packen.
00:24:58: Aber natürlich ist der Speicher nicht so schnell wie auf so einer Grafikkarte und erst recht nicht wie auf einem KI-Beschleuniger.
00:25:04: Also das nochmal zur Feststellung.
00:25:08: Und jetzt möchte ich zu dem Punkt kommen, wieso um Himmels Willen, jetzt hat man ja diese NPU.
00:25:16: Und ganz am Anfang haben wir gesagt, Ich spreche ja mit dir heute, weil du unser GPU-Experte bist und wirklich viel über GPUs weiß.
00:25:24: Und da sind die KI-Funktionen ja hergekommen.
00:25:27: Deswegen ist NVIDIA das wertvollste Unternehmen der Welt.
00:25:30: Also die GPU ist von der ganzen Anlage her, liegt es relativ nah, da KI draufzurechnen.
00:25:37: Wieso um Gottes Himmels Willen will man das jetzt unbedingt auch in die CPU-Kerne einbauen?
00:25:42: Ich glaube, um diese Frage wirklich zu beantworten, müssen wir noch einmal ganz kurz auf die Matrix-Fähigkeiten von den Grafikprozessoren schauen, also GPUs und integrierte Grafikprozessoren, also EGPs, die für Mobilprozessoren ja sehr wichtig sind.
00:25:57: Manche von denen haben ja sogar Tensoreinheiten, speziell für KI-Algorithmen.
00:26:03: Und die sind nochmal deutlich stärker und flexibler als bei NPUs.
00:26:09: Okay, dann erzähl uns mal, was du gemacht hast.
00:26:12: Also man kann sowohl die ohnehin für die drei D Berechnungen vorhandenen Schälder-Rechenkerne einer GPU einfach für Matrix-Multikationen einspannen, sind dann natürlich auch nicht so effizient wie die Rechenwerke der NPU.
00:26:27: Und auch die Tensoreinheiten, die gibt es bei den relativ neueren IGPs, die gibt es auch, sind dann noch einen Schritt effizienter im Vergleich zu den normalen Rechenwerken der GPU.
00:26:42: Die liefern auch schon besonders hohe Leistung bei den KI-Datenformaten wie IND-Acht oder FPVier.
00:26:49: Aber das Gerät der GPUs, also GPU-Chips, kommen mit FPVier, also ich rede jetzt mal so von Mittelklasse-Karten in dem Bereich schon von über fünfhundert Terraflops, also Faktor zehn im Vergleich zu einer NPU.
00:27:03: Da denkt man jetzt okay, dann brauche ich eine NPU erst recht nicht.
00:27:06: Aber dann schlucken sie auch irgendwie hundertfünfzig oder zweihundertfünfzig Watt.
00:27:14: Zusätzlich kommt da noch dazu, dass die Flexibilität bei Graphic Chips, die ja auch mit höheren Genauigkeiten umgehen können, besser ist als bei einer NPU.
00:27:23: Da gibt es mehr Freiheiten bei der Programmierung, weil eben nicht nur Matrix-Matrix-Multiplikationen ausgeführt werden, sondern auch andere Dinge, Spezialfunktionen.
00:27:33: Und die GPUs kennen einfach auch mehr Datenformate wie etwa ... wie float-sechzehn oder tensor float-zweiunddreißig und eben das schon angesprochen der fp-vierundsechzig.
00:27:44: da sind sie jetzt auch nicht so schnell aber
00:27:46: das sind ja die die die grafikkarten für heimanwender also die gaming grafikkarten typischerweise künstlich bestinden sogar bei fp-vierundsechzig oder
00:27:55: mittlerweile nicht mehr so sehr.
00:27:56: mittlerweile haben sie das sind die das war früher mal so das ist richtig.
00:28:01: aber seit quasi für rechenzentren ist komplett eigene Grafik Chips und beschleuniger Linien gibt, haben sie tatsächlich auch in Hardware die fp-六zig Einheiten deutlich zurückgefahren.
00:28:14: Also so auch ein viernsechzigstel oder ein hundertundzwanzigstel der fp- zweiunddreißig Leistung.
00:28:21: Weil, weil KI jetzt der heiße Scheiß ist, sozusagen, den man verkaufen kann,
00:28:24: dass
00:28:25: sich für fp- viernsechzig kaum noch einer interessiert.
00:28:27: Fp- viernsechzig benutzt du in Supercomputern und bei wissenschaftlich technischen Anwendungen.
00:28:32: Und das die überhaupt noch drin ist bei normalen Gamer GPUs liegt hauptsächlich daran, dass halt auch Entwickler die benutzen und die dann auch mal gucken können, ob ihr Kot auch funktioniert.
00:28:42: Der läuft dann halt zwar sehr langsam für wissenschaftliche technische Anwendung, aber die sehen halt beim Entwickeln der Software, okay, funktioniert, kompiliert und dann läuft es irgendwann auf den Rechenzentren GPUs, die viel, viel schneller sind.
00:28:55: Gibt es denn was, was GPUs nicht können im Unterschied zu CPUs?
00:29:00: Da fällt mir ehrlich gesagt fast nichts ein.
00:29:03: Ich hatte jetzt eigentlich an die Vektor-Rechenwerke gedacht so ein bisschen, weil das AVX ist ja nun das, was gerade speziell an den CPU-Kern dran hängt, oder?
00:29:12: Ja, also wenn du jetzt auf spezielle Befehlsformate oder so eingehen willst, ja das können GPUs nicht, also AVX oder SVE oder solche Dinge, aber Vektor-Berechnungen können sie natürlich.
00:29:25: Mussten halt an das angesprochen werden dafür.
00:29:27: Ja.
00:29:27: Also ich muss sie dann anders programmieren.
00:29:29: Das heißt, kann man sich das so vorstellen bei den CPU-Kern, dass man das in dem normalen Code mit drin haben könnte.
00:29:41: Also wenn man eine KI-Rechenwerke in der CPU einbaut, dass sie es aus Sicht eines Programmierers leichter nutzen lassen, oder kann man das so nicht sagen?
00:29:51: Also könnte man sicherlich aber ich soweit ich weiß werden die npu's ja bis jetzt noch über spezielle.
00:30:00: Ja frameworks und spezielle Ansprachen.
00:30:03: Angesteuert tauchen ja zum Beispiel im Windows Geräte Manager auch als eigener Prozessor auf für die es dann eigene Treiber gibt.
00:30:09: also die werden schon über apis angesteuert.
00:30:11: dann die sind dann entweder gibt es eine Windows oder auch eine Linux api.
00:30:16: Aber die meisten sind dann doch Herrsteller.
00:30:21: spezifisch schwieriges Wort.
00:30:23: Okay.
00:30:27: Mir geht es jetzt noch ein bisschen darum, das zu schärfen.
00:30:29: Warum denkst du dann, dass die die CPU-Hersteller, also das haben wir jetzt noch gar nicht ausdrücklich gesagt, aber wir haben dieses Gespräch jetzt natürlich und wir hatten auch in unserer Kolumne Bittrauschen einmal drauf hingewiesen, weil diese Matrix Rechenwerke für Prozessoren, jetzt sowohl von, also bei Apple gibt es die schon in den M-Prozessoren, die haben die mit dem M-Fünf, die haben, da haben sie die in die GPU Kerne eingebaut, aber vor allem gibt es eben, wir haben ja erwähnt, ARM, SME, also Scalable Matrix oder Scalable Matrix Extension, die man auch Streaming SVE nennen kann, die haben die... explizit bereits angekündigt und die kommen jetzt mit dem Qualcomm Snapdragon XII sehr bald auf den Markt, so wir haben gerade über die CES News berichtet, so ab Mitte des Jahres dürften die ersten Notebooks da sein, die das dann können.
00:31:27: Bei Apple ist das bereits nutzbar, die sind bereits vorhanden in den M-Chips, allerdings dokumentiert Apple das so nicht.
00:31:34: und man soll ja bei Apple immer schön mit diesen Apple-Programmier-Umgebungen Programmieren, da ist das in diese Primitives sozusagen mit eingebaut.
00:31:43: Also wenn ich da eine Matrix Multiplikation machen möchte oder ein Karrieregorithmus, dann schlägt mir das dem Programmierer entsprechend vor.
00:31:52: Warum?
00:31:53: Und AMD und Intel, die sind ja jetzt wie der beste Freunde seit zwei Jahren, glaube ich jetzt, in ihrer komischen, wie heißt das noch, ihr Verein?
00:32:05: Ja,
00:32:08: genau.
00:32:09: Die haben das jetzt auch angekündigt, dass sie das machen wollen.
00:32:13: Was glaubst du, warum?
00:32:16: Ich glaube, da geht es tatsächlich um A. Um Flexibilität und auch um Marketing, um die begrenzte Siliziumfläche von den Trips.
00:32:33: Die NPUs, die haben wir angesprochen, die sind ja sehr, sehr effizient und haben auch sehr, sehr... hohen Durchsatz, aber brauchen halt trotzdem viele Transistoren und viele, viele Transistoren, belegen natürlich auch viel Fläche bei so einem System on Chip.
00:32:51: Und das kann man so von den Block-Schaltbildern, die die Hersteller zeigen und den aufgesägten Di-Shots und so ein bisschen herausahnen.
00:33:02: So eine NPU, die fristbar aktuellen SOCs, durchaus dem Platz von ein bis zwei dicken CPU-Kernen, also den sogenannten P-Kern oder den schnellen Kern bei Apple.
00:33:14: Und wenn man jetzt diesen Platz einsparen wollte, könnte man alternativ halt auch die GPU stärker auslegen.
00:33:21: Und das hast du ja eben gerade auch schon gesagt.
00:33:22: Das zeigt sich jetzt bei Apple, bei den SOCs.
00:33:27: Beim Übergang vom MIV zum MV hat Apple zum Beispiel jetzt mal aufgehört, die NPU-Leistung wirklich konkret zu beziffern.
00:33:35: Bei MkIV waren es so um die Achtunddreißig TerraOps.
00:33:39: Also ein kleiner Ticken langsamer als die aktuellen Co-Pile plus NPUs.
00:33:45: Und beim M-Fünf sprechen sie jetzt noch davon, dass das optimiert worden sein soll.
00:33:50: Und da hast du ja auch schon erwähnt, dass Apple die KI-Funktionen in jedem GPU-Kern eingebaut hat.
00:33:58: In dem Fall nicht in die CPU-Kerne.
00:34:00: Aber am Ende des Tages.
00:34:03: Weil eben bei Apple auch der Chiphersteller die Software-Seite in der Hand hat, zeigen die Benchmarks, dass der M-Fünfen halt auch ein extrem starker KI-Beschleuniger ist im Vergleich zur Leistungsaufnahme.
00:34:13: Er kommt natürlich nicht mit so einem Kilowatt-Rechenzentrums-Dings mit, aber er braucht auch nur ein Zehntür so viel Strom oder ein Hundert.
00:34:22: Die laufen auch nur sechs Sekunden am Akku oder so.
00:34:26: Ich schaffe es ja nicht mal sputen.
00:34:30: Warum hast du eine idee, warum Apple jetzt ausgerechnet die GPU-Kerne für die KI aufgepräzelt hat und nicht die CPU-Kerne?
00:34:37: Doch, da musst du, glaube ich, Apple fragen.
00:34:39: Die haben es, glaube ich, also zumindest habe ich das noch nicht mitbekommen.
00:34:42: Ich glaube aber, sie haben es tatsächlich noch nicht verraten.
00:34:45: Aber da gibt es halt auch keine absoluten Wahrheiten.
00:34:48: Die werden wohl für das, was sie sich so vorstellen, was ihre User... damit anstellen wollen, entsprechende Simulationen auf irgendwelchen Supercom Computer gemacht haben und gesagt, okay, so und so ist das die beste Lösung unter für Mac OS oder iPad OS.
00:35:05: Und für KI schien Ihnen das jetzt tatsächlich so zu sein oder so, die beste Alternative zu sein.
00:35:13: Qualcomm hat es ja ein bisschen anders gemacht.
00:35:15: Ja.
00:35:17: Das ist übrigens vielleicht ein Punkt, den man hier nochmal rein ... geben kann für Leute, die sich jetzt nicht den ganzen Tag mit Prozessoren beschäftigen.
00:35:27: Viele denken ja so, die Hersteller bauen einfach das neueste und tollste irgendwie in ihre Chips ein, weil sie es können.
00:35:36: Nein, die überlegen sich ganz genau, welche Kompromisse sie schließen.
00:35:41: Und das ist ja, das sieht man ja jetzt am Anfang, sagen wir das bei den M-Prozessoren von Apple ja noch gar nicht so deutlich.
00:35:48: Aber die machen sehr aufwendige Simulationen.
00:35:50: welcher Code tatsächlich durch ihre Prozessoren fließt, um es mal so darzustellen.
00:35:56: Also was sie die meiste Zeit eigentlich so tun.
00:35:58: Und deswegen zeigt sich ja jetzt, dass Apple wirklich unfassbar genial ihr eigenes Apple Silicon für ihre Anwendungsfälle optimiert hat.
00:36:10: Und das war eben, wenn das neu ist.
00:36:12: Beim ersten M-I konnte man das noch nicht so stark sehen.
00:36:15: Da gab es ja noch mehr Nachteile und so.
00:36:17: Aber Deswegen ist es auch immer so ein bisschen weg, das eben aus der Perspektive, aus unserer Perspektive oft so ein bisschen unbeholfen.
00:36:25: und man versteht das gar nicht, wenn Leute denken, ja jetzt könnte ich den doch nehmen und super Server draus bauen oder sowas.
00:36:31: Ja genau eben nicht, sondern es gibt schon seinen Grund, warum eben AMD und Intel die Server Prozessoren so bauen, wie sie es tun.
00:36:39: Und man sieht ja jetzt, dass z.B.
00:36:41: eben Amazon mit ihren ARM-Prozessoren für Server auch so ein Beispiel für ganz bestimmte Anwendungen einen super hoch optimierten Prozessor hat, der AMD und Intel sicher wehtut.
00:36:52: Aber trotzdem kaufen sie weiter X-Achzig-Prozessoren, weil es eben auch Aufgaben, also Server-Prozessoren dafür gibt.
00:36:59: Das heißt, es gibt in diesem ganzen Prozessorbereich keine absoluten Wahrheiten.
00:37:02: A ist besser als B, sondern man muss immer sagen, ja, was ist für eine Geräteklasse, welche Leistungsaufnahme geht es?
00:37:09: Und was habe ich für Kunden?
00:37:10: Was machen die damit?
00:37:11: Und was habe ich für Code ins Besondere?
00:37:13: Und da ist Apple natürlich in einer besonderen Position, da sie eben alles aus einer Hand steuern können, können sie dann auch sehr stark optimieren.
00:37:23: Die werden ihre Gründe haben, aber die binden sie uns dann eben leider auch nicht unbedingt auf die Nase.
00:37:28: Können wir also nicht sagen.
00:37:30: Aber du hast noch den Aspekt Marketing erwähnt.
00:37:32: Kannst du den noch mal erklären, wie du das meinst?
00:37:35: Ja, damit meinte ich, dass Hersteller, die könnten ja auch mehr CPU-Kerner einbauen, statt die NPU immer fetter zu machen.
00:37:43: Dann könnten sie halt mit mehr CPU-Kernen werben, also statt jetzt einem.
00:37:47: Sechzehn Kerner und ein dreißig Kerner oder sowas.
00:37:50: Das ist ... Da die leute das ja gewohnt sind okay es gibt einen court core es gibt ein sechster kerner es gibt ein acht kerner und so weiter und sofort.
00:37:59: Ist es natürlich naheliegend mehr ist besser und das ist irgendwie auch leichter zu verstehen.
00:38:03: also wenn ich jetzt anfange mit noch einem komischen akronym npu das wissen ja die meisten leute wissen ja nicht mal was das ist dann kommen da irgendwelche terra ops.
00:38:13: Dazu kommt so viele Killer Apps, die gibt es ja noch gar nicht, die tatsächlich eine NPU voraussetzen, jedenfalls nicht für Notebooks.
00:38:21: Da läuft das mehr so im Hintergrund.
00:38:25: Bei Smartphones, also da merkst du dann vielleicht, dadurch, dass, keine Ahnung, die Kameraverbesserung für eine Videokonferenz im Hintergrund auf der NPU läuft statt auf der CPU.
00:38:38: läuft der Lüfter nicht mehr so laut oder nicht mehr so lang und der Akku hält länger durch.
00:38:42: Aber das sind mehr so Soft-Features.
00:38:45: Bei Smartphones ist das zum Beispiel völlig anders.
00:38:47: Die Kamerabildverbesserung, die jetzt quasi live geschieht, Bild- und Videobearbeitung oder Sprachübersetzung, das wäre ohne eine MPU da gar nicht denkbar.
00:38:57: Dafür sind die CPUs da einfach auch noch zu schwach und natürlich die Akkus noch viel kleiner.
00:39:03: Also vollkommen irre, fand ich jetzt wirklich, das ist das jetzt, ich hab das noch nicht selber ausprobiert, ich hab ja auch gar kein iPhone, aber das ist jetzt in diesen Apple-Airpods diese Live-Sprach-Übersetzung gibt.
00:39:16: Das ist
00:39:16: so ein bisschen wie aus Star Trek, der ist Live-Übersetzer und Universal Translator heißt da, glaube ich.
00:39:23: Aber das
00:39:24: ist natürlich so ein super Beispiel, wo meine NPU wirklich braucht, einen hochoptimierten KI.
00:39:30: Prozessor und aber niemand, also man macht das dann doch deutlich weniger am Notebook oder am PC, wo das die Grafikkarte ja locker könnte.
00:39:44: Aber da hat man die Algorithmen gar nicht, weil es ja den Anwendungsfall gar nicht gibt.
00:39:47: Also es ist jedenfalls da nicht so ohne weiteres eingebaut.
00:39:49: Genau.
00:39:52: Siehst du noch irgendwelche speziellen Vorteile, wenn man jetzt Matrix-Rechenwerke direkt in den CPU-Kern hat?
00:39:59: Ja, also die gibt es durchaus, wenn man die direkt mit rein-designet.
00:40:04: Das naheliegendste ist ja, wenn sie sehr eng an den CPU-Kern dran sind, sind sie ja auch sehr eng an dem super schnellen und hochoptimierten Caches dran und profitieren von deren Datenübertragung.
00:40:16: Und ein weiterer Vorteil ist die Flexibilität und zwar in beide Leihrichtungen, wie vorhin schon angedeutet, da lassen sich Matrix-Einheiten ja auch als super schnelle Vektoreinheiten zum Beispiel benutzen, oder die Matrix-Einheiten machen nur die vielen Matrix-Matrix-Multiplikationen, aber die teure FP-Adiation könnte dann der CPU-Kern machen, zum Beispiel.
00:40:39: Und die Scalable Vector Extensions II von ARM, die möglichen ja auch Befehlsketten, SIM-Diebefehle, die unabhängig von der Vektorlänge anwendbar sind.
00:40:54: Das gibt Programmierern jetzt gerade auch als Basis für SME viel mehr Freiheiten als bei den relativ starren NPUs, die wirklich halt, man muss sich das wirklich so vorstellen, wie an so einem Fließband.
00:41:07: Und dieser FPU ist wie so ein Fließbandroboter, der wirklich nur einen Arbeitsschritt, ich übertreibe jetzt ein bisschen, aber nur einen Arbeitsschritt kann.
00:41:14: Sobald man, keine Ahnung, das Produkt dann nach links statt nach rechts drehen muss, sind die völlig überfordert.
00:41:24: Dazu kommt natürlich auch die in den CPU-Kern integrierten Rechenwerke, können natürlich auch noch ganz andere Datenformate wie FP, sixty oder zweiundreißig.
00:41:33: Das hatten wir ja schon.
00:41:34: Würdest du jetzt also sagen, CPU-Matrix-Einheiten sind die Zukunft?
00:41:41: Das würde ich mich jetzt noch nicht trauen angesichts des gerade völlig in sich, in eiligen Wandel begriffen K.I.-Marktes.
00:41:55: Es ist ja auch noch so, es macht noch niemand wirklich konkrete Angaben zur Rechenleistung, was diese CPU-Matrix-Einheiten dann ja können, was die für einen Durchsatz schaffen.
00:42:08: Das ist ja ganz anders als bei den NPUs.
00:42:11: Und das kommt natürlich auch noch dazu, die konkrete Performance bei SME und ACE, die hängt ja auch von der Implementierung ab, also von der Anzahl der CPU-Kerne und der Taktfrequenz und so weiter.
00:42:25: Stimmt also wenn ich dann in den CPU Kern jeweils Matrix Rechenwerke habe dann hängt die Gesamtperformenz ja von der Zahl der.
00:42:33: Gesamt vorhandenen Matrix Rechenwerke ab.
00:42:35: interessanter Gedanke stimmt ja.
00:42:37: das ist also schwer einzuschätzen wenn die NPU ja so ein Block ist und beziehungsweise die sind ja auch unterteilt und bestehen aus mehreren Unterkernen zum Teil.
00:42:48: Aber die sind ja oft starre.
00:42:50: Also wenn ich mir jetzt die Intel-NPU oder die von AMD angucke, die skalieren sie ja kaum über ihre Prozessor, also innerhalb einer Prozessor-Generation.
00:43:00: Genau,
00:43:00: der ist immer auf.
00:43:00: Die fand dann immer
00:43:01: diese forty-fünf-Teraflops, egal ob du das Einsteigermodell oder das teuerste Modell hast.
00:43:06: Klar, aber wenn das auch dafür gedacht ist, zum Beispiel im Hintergrund jetzt ein laufendes Video zu... Verbessern,
00:43:13: Farbraumanpassung
00:43:14: oder sowas.
00:43:15: Naja, das ist blöd, dafür gibt es extra Einheiten.
00:43:17: Aber sagen wir mal, Tonspur zu entrauschen, dann brauche ich ja gar nicht mehr Leistung unbedingt.
00:43:23: Das ist ja ein bisschen wie, du weißt ja, dass ich immer wieder witzle, wenn jemand Video-Beschleuniger reinschreibt, weil ich sage, nee, eigentlich will man ja Videos gar nicht beschleunigen.
00:43:33: Gut, bei YouTube machen das die jüngeren Leute und machen die schneller, aber eigentlich möchte man, dass das Video ja mit der richtigen Schwindigkeit läuft.
00:43:41: Genau,
00:43:43: die Sonder-Beschleuniger das tut.
00:43:44: Ja, es ist ja kein Anders als ein D-Beschleuniger, der soll das so schnell wie möglich machen.
00:43:49: Aber ein Videodekoder soll eigentlich nur besonders effizient dekodieren und in dem Sinne sind hier NPUs gedacht.
00:43:56: Aber du hast vorhin noch eine Abkürzung verwendet.
00:43:59: A-C-E oder sowas, oder?
00:44:02: Oder die müssen wir noch erwähnen.
00:44:03: Das
00:44:03: ist kein besonders gesunder Saft aus dem Reformhaus.
00:44:06: Das ist die völlig idiotische Abkürzung.
00:44:10: die völlig naheliegenderweise für Advanced Matrix Extension for Matrix Multiplication steht.
00:44:16: Und die wird halt ACE, wie das AS, also das Flieger-AS oder das ACE of Spades ausgesprochen.
00:44:24: Und das haben sich dann in AMD gemeinsam ausgedacht.
00:44:28: Also für diese tolle Abkürzung braucht es die beiden großen Prozessaufirmen der Vergangenheit.
00:44:33: Und die haben sich dafür extra in dieser schon erwähnten xx und achtsich ecosystem advisory group zusammengetan.
00:44:41: Weil den xx und achtsich prozessoren oder dem xx und achtsich lager sag ich mal also beiden firmen, schwimmen angesichts der arm angriffe ja immer mehr fälle weg.
00:44:52: Ja sieht man ja jetzt gerade also speziell gegen apple ist ja anscheinend kein kraut gewachsen, da haben sie ja nur glückt, dass nicht jeder macOS mag und dass das video sich so gut draufläuft.
00:45:05: Also wenn Windows und alle Programme auf einem Apple laufen, täten, dann wäre es, glaube ich, noch schlimmer.
00:45:11: Ohne Gebastel und ohne Gefrickel.
00:45:13: Ja, aber man darf immer nicht vergessen, auch wenn es Intel im Moment wirklich, glaube ich, historisch schlecht geht, die liefern eben immer noch eine überwiegende Mehrzahl aller... PC Prozessoren, Notebook Prozessoren, also ohne die Fertigungskapazität von Intel, hätten wir ein Problem, wie wir es im Moment beim DRAM ja auch sehen.
00:45:33: Dann wären die Prozessoren ganz schön teuer.
00:45:36: Aber natürlich, du hast völlig recht.
00:45:37: Klar, Arm, Nagt, Böse am Wachstumspotenzial von AMD und Intel und führte ja auch ganz schön vor bei der Effizienz.
00:45:47: Weiß man denn schon, was diese Ace Einheiten von AMD und Intel können, also die wurden angekündigt, aber gab es da schon mal so eine Vorabspezifikation oder so was?
00:45:58: Nicht so genau, nein.
00:45:59: Also AMD und Intel haben ja früher mal AVX-II, AVX-II und AVX-Von-Von-Von-Volv eingebaut und sind noch dabei, das mit AVX-X zu vereinheitlichen.
00:46:11: Denn die merken ja auch, dass sie nur noch eine Chance haben, wenn sie wirklich mit einheitlichen Befehltssatz antreten, dass da nicht noch irgendwelche Sonderlocken nötig sind, um die jeweiligen Chips auszureißen.
00:46:22: Und die ACE-Spezifikation, die das ja sozusagen dann erweitern oder, ich will nicht sagen, beerben, aber erweitern soll, die ist noch gar nicht veröffentlicht.
00:46:32: Was irgendwie ziemlich peinlich ist, denn Arm hat SME mit Arm neun Punkt zwei schon vor.
00:46:40: zig Jahren spezifiziert und seit dem mv sollen die apple processor kennen im wesentlichen wohl sme umsetzen.
00:46:50: Das weiß man wiederum nicht genau weil das apple nicht
00:46:52: verrät so nicht so ganz genau aber es spricht so einiges dafür.
00:46:57: Und vorher hat er wieder so ein apple-süppchen gekocht und hat das dann apple matrix extensions genannt.
00:47:03: am x Die abkürzung gibt es bei intel auch die heißen sie dann advanced matrix extensions.
00:47:10: Und vielleicht klagt ist das auch ein Grund für diese ACE Erweiterung, dass man da jetzt versuchen wollte, mal einfach auch eine eigene Abkürzung zu haben, die sich nicht irgendwie mit dreißig anderen noch beißt.
00:47:21: Aber bedeutet das, dass Intel schon solche Matrix Erweiterungen hat?
00:47:25: Ja, ja, ja.
00:47:26: Aber die gibt's seit Sapphire Rapids, also Server Prozessoren, haben das schon, die heißen wie gesagt AMX.
00:47:33: Und das sind diese neuen Seons, die einen P- und E-Kerner aufgeteilt sind, beziehungsweise wo es P-Kerne gibt, sind auch im Moment in den Seons die AMX Matrix Extensions mit drin in den Großen.
00:47:47: Und daher hat das auch noch keine große Verbreitung erfahren, also es gibt so ein paar einzelne Anwendungen, da kann man das schon gewinnbringend nutzen.
00:47:58: Aber wie gesagt großverbreitet ist es nicht, aber es liegt natürlich nahe, dass man sich mit ACE so ein bisschen auch an AMX orientiert.
00:48:07: Okay, aber du kennst jetzt auch keine Benchmarks, wo man so mal einschätzen könnte, wo dieses AMX im Vergleich zu irgendeiner GPU oder einem KI-Beschleuniger steht.
00:48:18: Nee, also das gibt es.
00:48:20: soweit, ich weiß nicht.
00:48:21: Also man kann ganz generell kann man sagen, Matrix Einheiten in CPUs sind vergleichsweise gut, wenn es um niedrige Latents geht, also wenn die Modelle klein sind und nur möglichst schnell irgendeine Antwort geliefert werden muss.
00:48:39: Also kleine Probleme, möglichst schnell beackern.
00:48:42: Und da gibt es auch einige Tests, die Intel natürlich selber gemacht hat für ihre AMX-Einheiten, wo die im Vergleich zu den CPU-Kernen, also nicht GPUs oder KI-Beschleunigern, ziemlich gut aussehen.
00:48:54: Der reine Vergleich zu KI-Beschleunigern, der wird eigentlich nicht gezogen.
00:49:00: Okay.
00:49:01: AMD hat sowas aber noch nicht?
00:49:04: Nee, AMD hat sowas momentan noch nicht.
00:49:07: Okay.
00:49:08: Und gibt es irgendeine Abschätzung, wann X-AXX-Prozessoren mit ACE oder ACE kommen könnten?
00:49:16: Auch das weiß man noch nicht.
00:49:18: Also nix, nix Finites.
00:49:20: Aber man kann mal vermuten, es soll ja irgendwann den sagen umwobenen Nova Lake von Intel geben, der ja auch AVX-Zähnen gestapelten Cash und Zweiundfünfzig Kerne haben soll und der soll ja nach aktuellen Planung vielleicht noch Ende zwanzig sechsundzwanzig kommen, also Ende dieses Jahres und möglicherweise hat er das ja auch schon dann drin.
00:49:45: Bei AMD gibt es dieses Jahr SenSex aus der N-Zweifertigung von TSMC.
00:49:52: Die haben es allerdings auch nicht bestätigt, ob oder ob nicht, also weder in die eine oder noch in die andere Richtung.
00:49:59: Also offiziell
00:50:00: gibt es keine ICE-Stadttermin.
00:50:02: Ja, ich meine, ich hätte was gesehen, dass AMD auf irgendeiner Folie, die sie mal auf so einer Investorenkonferenz hatten, irgendwas zu sensiben mit... Das hieß dann aber nicht A.C.E.
00:50:17: explizit, sondern irgendwelche Enhanced-Martrex-Performance oder so was draufgeschrieben hatten.
00:50:23: Das würde aber dann ja eher erst bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum
00:50:41: Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist, bis zum Jahr ist.
00:50:44: Da fällt mir aber noch was ein.
00:50:47: Wenn wir jetzt von Matrix-Einheiten in Prozessoren generell sprechen, Intel AMD haben wir jetzt abgefrühstückt, aber es gibt ja demnächst von Qualcomm den Snapdragon X-II für Windows Notebooks.
00:51:02: Naja, das hatte ich ja schon erwähnt und da kommt ja tatsächlich
00:51:05: genau.
00:51:05: Und der hat ja SME, zwar nicht in jedem einzelnen CPU-Kern, aber in diesen... CPU Cluster oder in den CPU Clustern, da teilen sich jeweils sechs CPUs eine Matrix Einheit, die sie dann SME Compute Units nennen.
00:51:19: Also das hat dann doch nicht.
00:51:22: jeder CPU kann seine eigene Matrix Einheit, das finde ich jetzt tatsächlich verwirrend.
00:51:25: Genau,
00:51:26: das ist quasi wie so eine NPU, die nur in den CPU Cluster eingebaut ist.
00:51:33: Man muss das ja auch nicht zwingen zu machen, das sagt ja auch keiner, dass das... Der Weisheit.
00:51:37: letzter Schluss ist, die AMX-Einheiten wirklich in jedem CPU-Kern zu machen.
00:51:41: Du hast natürlich den Vorteil, du kannst die Anforderungen von Dingen wie für Copilot Plus oder so, kannst du mit dieser Matrix-Einheit abdecken und egal, ob der CPU, ob dein SoC dann sechs, acht oder sechzehn oder zwölf gerne hat, hast du auf jeden Fall diese Voraussetzung.
00:52:02: Wenn du jetzt sagst, ich habe nur vier CPU-Kerne und die müssen schon diese forty-fünf Terra-Obs liefern, dann hast du ja quasi bei den größeren CPU-Varianten mit acht oder sechzehn Kern quasi viel zu viel GPU-Leistung für diesen Einsatz weg.
00:52:20: Gut, also... Finde ich aber jetzt tatsächlich doch verwirrend.
00:52:23: Wir hatten ja am Anfang versprochen, dass wir die Verwirrspiel-End-Wirren.
00:52:28: Jetzt finde ich das tatsächlich, also es hat nicht jeder unbedingt jeder CPU-Kern selber so eine Einheit, aber sie sind den CPU-Kern zugeordnet.
00:52:37: Aber wie das bei X-Achzen-Achzig implementiert ist, wissen wir ja noch gar nicht.
00:52:40: Ja,
00:52:41: da wissen wir es halt wie gesagt nur für die Server-Prozessoren von Intel.
00:52:44: Da hat es tatsächlich jeder Kern.
00:52:46: Aber wie das dann mit ACE wird, ob das dann auch in jedem Kern ist oder ob die sich sagen, das ist vielleicht gar nicht so eine schlechte Idee, wie das Qualcomm macht, in jedem Cluster das einzubauen, das wissen wir noch nicht.
00:53:01: Jetzt wird die NPU.
00:53:03: Wir haben übrigens schon neuen Datenpunkt.
00:53:07: Also jetzt, wo wir das gerade aufzeichnen, den Podcast.
00:53:10: habe ich gerade ein Artikel von unserem Kollegen Florian Müssig von der CES durchgeackert, indem er zu Pantherlake Core Ultra III von Intel berichtet hat.
00:53:23: Und da ist auch eine neue NPU Generation von Intel drin, NPO V. Und interessant, da passiert das, was wir jetzt auch schon so implizit angedeutet haben, die wird gar nicht viel schneller.
00:53:36: Die hat jetzt irgendwie sowas in der Größenordnung von fünfzig oder sechzig Terraubs, während übrigens im Unterschied dazu Qualcomm ausdrücklich für den Snapdragon X-II gesagt hat, sie hätten so eine besonders schnelle.
00:53:49: Na, aber wir haben ja vorhin schon gesagt, also Apple hat beim M-Five gar nicht mehr so viel zu der NPU gesagt.
00:53:56: Die ist wahrscheinlich nicht sehr viel schneller geworden, im Vergleich zum MIV.
00:54:00: Sonst hätten sie es wohl erwähnt.
00:54:01: Sonst hätten sie es sicher erwähnt.
00:54:03: Genau, da kann man immer davon ausgehen.
00:54:06: Intel hat gesagt, wir haben sie verbessert, aber die absolute Leistung ist gar nicht unbedingt zu groß gestiegen.
00:54:11: Aber der springende Punkt ist, Sie haben auch explizit gesagt, sie ist kleiner geworden in dem neuen Fertigungsprozess.
00:54:17: Das heißt, wenn man die NPU so sieht wie so ein Videodekoder.
00:54:21: Ja, so nach dem Motto ist schnell genug, aber super effizient und wird eben mit jedem Shrink, also mit jeder neuen Chip Generation vielleicht ein bisschen kleiner und noch ein bisschen effizienter.
00:54:31: Und das ist für Aufgaben gedacht, die eigentlich nicht die Performance brauchen, weil wenn es um maximale KI Performance geht, nämlich ja eh die GPU, die integrierte GPU oder in Zukunft die CPU Kerne, dann wird ja über die Zeit dank Moors Law Die NPU immer immer kleiner sozusagen, die kriegt vielleicht noch so ein paar Features dazu.
00:54:51: Das heißt, es verlagert sich so ein bisschen die, also der eigentliche Gegner der KI-Rechenwerke in den CPU-Kernen, ist ja nicht die NPU, sondern die GPU sozusagen.
00:55:03: Also zwischen denen läuft ja die Balance vermutlich in der Zukunft.
00:55:08: Das wird wahrscheinlich darauf hinauslaufen ja, also zumindest im Desktop oder Mobilsegment.
00:55:15: Und fällt dir
00:55:15: denn
00:55:17: Eine Anwendung ein, von der man von heute aus schon sagen könnte, das wäre was, was ich eigentlich, wo die GPUKI heute so begrenzt ist, dass man lieber eine CPUKI hätte.
00:55:30: Also eine Anwendung selber fällt mir nicht ein.
00:55:33: Was mir natürlich einfällt ist, dass jeder Rechner eine CPU hat und da war nicht jeder Rechner unbedingt eine GPU.
00:55:40: Zumindest keine, die besonders leistungsfähig ist.
00:55:43: Ja, das stimmt.
00:55:45: Also besser auf der CPU, dass sich irgendwie hinwursteln können, als auf die GPU vertrauen, die dann eventuell gar nicht da ist.
00:55:52: Und das ist ja gerade bei diesen Killer-Apps oder Killer-Features im Betriebssystem, wo man einfach erwartet, dass sie auf jedem Rechner funktionieren enorm wichtig, dass sie halt auch dann überall laufen.
00:56:05: Und nicht nur auf dem Verhältnis wenigen Rechner, die eine dedizierte Grafikkarte haben.
00:56:11: Das meinst du meinst also in dem Sinne wie eben vielen sechzig bitt anwendungen erst jahre viele jahre auf markt gekommen sind in breiterer mänge als eben die vielen sechzig bitt prozessoren mussten zuerst da sein dann muss das vielen sechzig bitt windows und linux und so und so.
00:56:27: da
00:56:28: entwickelt es ja keine software entwickelt ja keine software wo du dann denkst ja wenn die dann in drei jahren fertig entwickelt ist haben dann vielleicht zehn prozent der leute ein rechner auf der das läuft.
00:56:38: du willst ja.
00:56:39: eine breite Zielgruppe für dein Produkt haben.
00:56:41: Okay.
00:56:43: Aber da sind wir ja,
00:56:45: ja.
00:56:47: Aber gut, wenn, wenn, wenn AMD und Intel sich noch nicht mal einig sind, wie ihre Ace-Rechenwerke aussehen sollen, dann ist es bis dahin ja noch ein bisschen hin.
00:56:55: Da werden wir bestimmt nochmal drüber sprechen, Carsten.
00:56:58: Ich würde sagen, für jetzt reicht es mal, weil das ist tatsächlich ein sehr komplexes Thema.
00:57:08: Welche Matrizen man in welchem Rechenwerk am besten multiplizieren lässt?
00:57:13: Oder hast du noch irgendwas, was du dem noch hinzufügen möchtest?
00:57:18: Eigentlich schwierig, nein.
00:57:20: Ich bin auf jeden Fall gespannt, wie sich das weiterentwickelt.
00:57:23: Ich glaube auch, dass tatsächlich AMD und Intel in Wirklichkeit schon wissen, wie diese ACE Rechenwerke aussehen.
00:57:30: Sie haben es nur noch niemals im Verraten.
00:57:33: Ich meine, wenn sieben oder die Nachfolge-Generation war interview, wie heißen die denn Titan Lake?
00:57:38: Titan Lake, hab ich.
00:57:40: Ja, hab ich.
00:57:41: Das ist jetzt irgendwie, zwei tausend achtundzwanzig oder so avisiert.
00:57:46: Die fangen ja nicht jetzt an, die zu designen.
00:57:48: Die müsste ja schon weitgehend fertig sein, eigentlich.
00:57:52: Vielleicht ist es noch nicht im Band gelaufen, aber das Design an sich müsste ja schon stehen, würde ich mal sagen.
00:58:00: Okay, dann würde ich sagen ... Dann können wir alle gemeinsam nur auf die Zukunft warten und was uns die kommenden Prozessoren bringen.
00:58:09: Wir ab Mitte des Jahres können wir jedenfalls an Arm schon mal rummessen am Snapdragon X-II.
00:58:14: Das wird unser Kollege Florian dann vielleicht mal hier berichten, was er über die tollen SME Matrix Extensions rausbekommen hat.
00:58:23: Dir Carsten, danke ich jedenfalls ganz herzlich für das Gespräch.
00:58:27: Danke auch.
00:58:29: Ja und vor allem danken wir beide ihnen liebe Zuhörerinnen und Zuhörer für ihr Interesse und wir freuen uns über Feedback, gerne per Mail an bit-rauschen-et-ct.de.
00:58:42: Und wenn Sie jetzt noch mehr Lust auf Podcast haben, finden Sie ganz viel Auswahl unter heise.de-podcasts.
00:58:50: Gibt es zum Beispiel den neuen CT-IVIV, obwohl so neu ist er jetzt schon gar nicht mehr von dem erwähnten Kehno Jansen, der bei YouTube den Videokanal CT-Dreitausend Drei macht.
00:59:03: und ja, hören Sie gerne rein.
00:59:06: Ganz zum Schluss, herzlichen Dank an unseren Producer Ralf und ich sage Tschüss bis zur nächsten Folge von Betrauschen.
00:59:13: Jeden zweiten Mittwoch ganz früher mau.
00:59:15: Tschüss!
Neuer Kommentar