High Bandwidth Memory für KI-Beschleuniger | Bit-Rauschen 2026/9

Shownotes

Das sogenannte High Bandwidth Memory, kurz HBM, nervt zurzeit viele Leute. Denn weil die Nachfrage extrem hoch ist, sind andere Speicherchips wie DDR5-SDRAM wahnsinnig teuer.

Der Zusammenhang mag überraschen, weil nur sehr wenige Menschen jemals ein Gerät mit HBM in die Finger bekommen. HBM kommt ganz überwiegend in KI-Rechenbeschleunigern in Rechenzentren zum Einsatz, also zur Verarbeitung großer KI-Modelle. HBM ist pro Gigabyte nämlich so viel teurer als andere DRAM-Typen, dass es sich nur für solche Anwendungszwecke rechnet. Es gibt noch ein paar andere Einsatzbereiche, etwa superschnelle Netzwerkchips und Hochleistungsversionen von programmierbaren Logikchips, also FPGAs.

In dieser Podcast-Folge geht es darum, wie sich HBM von DDR5-, LPDDR5X- und GDDR7-SDRAM unterscheidet. Aber auch darum, wie es hergestellt wird (und von wem), welche Versionen bereits im Einsatz sind, was das kommende HBM4 besser kann als HBM3E und wieso HBM5 vielleicht nur noch mit direkter Flüssigkeitskühlung nutzbar ist.

Der c’t-Redakteur Christof Windeck erklärt HBM im Gespräch mit seinem Kollegen Carsten Spille: Folge 2026/9 von Bit-Rauschen, der Prozessor-Podcast von c’t.

Alle Podcast-Folgen sowie auch alle c’t-Kolumnen "Bit-Rauschen" finden Sie unter ct.de/bit-rauschen

Noch mehr Lust auf Podcasts? Hier finden Sie noch viele weitere aus dem Heise-Universum: Hören Sie von uns – unsere Podcasts

Transkript anzeigen

00:00:00: Herzlich willkommen zu Bittrauschen der Prozessor Podcast von CT.

00:00:04: In dieser Folge sprechen wir über super schnelle Speicherstapel, das sogenannte Highband with Memory.

00:00:10: Solche kurz HBM genannten Speicherchips sitzen auf den starken KI-Beschleunigern für Rechenzentren von NVIDIA, AMD, Google, Amazon, Microsoft und vielen anderen Herstellern.

00:00:22: Weil die Nachfrage nach HBM gigantisch ist sind auch andere Speicher chips derzeit sau teuer.

00:00:28: Weshalb das so wie HBM funktioniert und welche kommenden HBM-Typen geplant sind, das besprechen wir gleich.

00:00:51: Hallo!

00:00:51: Mein Name ist Carsten Spille.

00:00:53: Heute spreche ich mit einem CT-Kollegen Christoph Windeck der schon seit Jahren über RAM schreibt.

00:00:57: Hallo Christoph!

00:00:58: Ja hallo Carsten!

00:01:00: Ich freue mich dass wir endlich mal wieder über ein echtes Hardcore Nerd Thema sprechen und habe jetzt schon vierzigmal das Wort Bandwith, Band with, Band With für Highband with Memory gekübt.

00:01:13: Gut, also wir sagen jetzt nur noch HBM und nicht High Bandwidth Memory.

00:01:17: Jeder weiß jetzt das ist das heißt.

00:01:21: Schön dass wir mal wieder so ein Nerd-Thema besprechen, das finde ich auch.

00:01:26: aber ganz kurz wollen wir nochmal zum Einstieg kurz klären was das Besondere an HBM tatsächlich ist.

00:01:33: Magst du da mal kurz etwas zu sagen?

00:01:36: Das Besondere ist eigentlich ganz einfach, das sagt schon die Bandwidth oder beziehungsweise Highbandwidth Hohe Bandbreite.

00:01:44: Das dürften wir vorher in Ctini schreiben, weil Bandbreitte ja was für die Funktechnik ist oder also es hat eine mördermäßig hohe Datentransferrate.

00:01:52: das heißt dieses Ramm dieser Ramtyp ist besonders schnell und darum geht es bei KI Beschleuniger eben davon profitieren wenn sie sehr schnell auf das Ram zugreifen können.

00:02:05: Okay das klingt irgendwie erstmal naheliegend.

00:02:07: wie viel schneller als im Anführungszeichen normaler Speicher ist denn HBM?

00:02:13: Da muss ich jetzt wie üblich mal wieder ein bisschen ausholen, weil es halt so viele verschiedene Typen von normalem Speicher gibt.

00:02:21: Kann man mit dem Normalsten an.

00:02:24: Also mit dem aktuellen Normalsten.

00:02:26: das ist eigentlich Double Data Rate V Synchronous Dynamic Random Access Memory also LPDDR-V SD RAM.

00:02:37: Meistens sagen wir einfach DDR-V RAM.

00:02:41: Und das ist das, was zurzeit in den meisten Desktop PCs mit neuen Prozessoren steckt.

00:02:48: Aber auch in manchen Notebooks und einer der schnelleren Varianten ist DDR-Fünf-Sechs-Tausendvierhundert.

00:02:58: die kann man aktuell kaufen.

00:03:00: Zwar für teuer Geld.

00:03:01: Das hast du ja eingangs schon erwähnt dass die große Nachfrage nach Dram ganz generell die Preise halt nach oben treibt.

00:03:08: aber Jetzt kann man dieses ddr fünf sechs tausend vierhundert das ist für viele leute nur eine zahl.

00:03:14: aber wenn man da schon seit vielen jahren drüber schreibt dann ist einem klar dass da drin eigentlich schon versteckt ist wie schnell das tatsächlich ist.

00:03:22: Das geht nämlich so.

00:03:23: die rammkanäle bei so nem desktop pc.

00:03:25: diese module sind ja immer gleich die sind ja kompatibel zueinander und es heißt also, Für den aus der Technik Perspektive die Anschlüsse müssen natürlich erst mal gleich sein.

00:03:35: Das heißt, sie haben immer vierundsechzig Datensignaleitung pro Kanal und das heißt vierundsächsig Bitt in einem Rutsch gehen darüber.

00:03:44: Das sind acht Beid.

00:03:46: Denn acht mal achtzendvierundsechszig und ein bitz und klar beid Ein Beid sind acht Bitt Und die sechstausend Vierhundert steht eben für sechs Komma.

00:03:53: vier Milliarden Übertragung pro Sekunde Kann man auch sechs Komma vier Gigatransfers nennen.

00:03:59: Das Ding läuft also mit drei Komma.

00:04:01: zwei Giga Herz überträgt, double Data Rate das heißt Zwei Übertragung pro komplette Taktfrequenz.

00:04:11: Schritt daraus kommen diese sechs Kommafier gigatrans fers und wenn man jetzt sechs Kommapier mal acht wieder rechnen sind es Einen Fünfzig Kommas bei Gigabyte pro Sekunde.

00:04:20: Es kann man einfach Anhand der Randbedingungen und dieser DDR-Fünf.

00:04:24: Sechstausend vierhundert eben weiß man, das sind so um die Fuffzig Gigabyte pro Sekunde.

00:04:29: Und wenn ich also typische Desktop PC Mainboards haben zwei RAM Kanäle und dann komme ich da auf ziemlich genau hundert Gigabyte per Sekunde.

00:04:36: Also Null Komma Eins Terabyte Pro Sekunde Da liegt ein Desktop PC.

00:04:42: Okay

00:04:43: und Ich sage jetzt mal gleich was ein aktuelles High Bandwidth Memory kann und zwar Ja jetzt wird schwierig, denn das ist kein Einzelchip.

00:04:53: Sondern es ist ein Stack und die Neusten können

00:04:56: so.

00:04:57: was ist denn ein Stack?

00:04:58: Das müssen wir ganz kurz noch klären bevor das alles ist.

00:05:02: Es geht hier um gestapelte Chips.

00:05:04: Das heißt ein Stack bedeutet einfach Stapel.

00:05:07: also Leute die programmieren kennen das vom Programmieren.

00:05:10: da sagt man dann liegen die Daten im Stack Das heißt hier liegen da irgendwie auf dem Haufen und sind so nummeriert, dass man eben da eine indirekte Adressierung machen kann.

00:05:18: Zum Beispiel habe ich jetzt bestimmt wieder falsch gesagt also die sind hier jedenfalls physisch übereinander gestapelt.

00:05:24: die Chips und zwar nicht die fertig verpackten Chips sondern die nacken man nennt ja einen nack den Chip werden wenn er vom Wafer darunter geschnitten wird ein Dai.

00:05:38: Da sind mehrere Dyes übereinander gestapelt.

00:05:41: Darum geht es bei, also das ist ganz typisch für HBM und deswegen spricht man von einem HBM-Stack.

00:05:48: Von außen ist das mit bloßem Auge nicht zu sehen.

00:05:50: Das können wir aber gleich noch drüber sprechen.

00:05:53: Es geht hier nicht um einen einzelnen Chip sondern HBM, die werden immer nur als Stacks angesteuert.

00:06:01: Und ein HBM drei E-Stag, also dritte Generation Enhanced sozusagen dafür steht das eh hin dran.

00:06:07: Das ist das Schälste, was gerade so marktüblich verbaut

00:06:10: wird.

00:06:12: Die kommen auf eins bis eins, zwei Terabyte pro Sekunde.

00:06:18: Zwei RAM-Kanäle beim PC hat ich vorhin gesagt sind Null Komma Eins.

00:06:21: also das ist Faktor zehn bis zwölf schon mal in der Vergleich

00:06:25: Größenordnung quasi

00:06:27: genau.

00:06:28: und weil jeder KI chip gleich mehrere Stacks parallel ansteuert Desktop PC eben auch zwei Kanäle dran sind.

00:06:36: zum Beispiel haben so moderne KI.

00:06:39: Beschleuniger, zwei vier na zwei gibt's glaube ich gar nicht.

00:06:44: nur vier ist Minimum vier oder acht und es sind sogar welche mit zwölf geplant.

00:06:47: also das sind dann auch gleich Vier terabyte Sekunde Acht Terabyte Sekunder Also Faktor.

00:06:54: Wo sind wir denn?

00:06:54: Vierzig bis achtzig im Vergleich zu einem desktop PC Mainboard Und Wenn man jetzt es gibt aber natürlich auch schneller also große server.

00:07:07: Also die sind wirklich physisch groß damit auch die ganzen rammkanäle dahin passen die mainboards in servan.

00:07:13: und typisch für heutige moderne server prozessoren ist zum beispiel dual cpu als zwei physische prozessor entweder gesockelt oder verlötet, aber jedenfalls zwei prozessorn.

00:07:24: Und mit haben wir jeweils mittlerweile bis zu.

00:07:28: Wo sind wir?

00:07:28: Zweihundert vierzig Kerne pro Prozessor oder sogar noch mehr, also in der Größenordnung.

00:07:35: Und da brauche ich natürlich auch schnelles RAM weil sonst nutzen mir die vielen Kerne nichts wenn sie quasi durch einen Strohhalm ihre Daten spürfen müssen.

00:07:42: und deswegen haben die auch sehr viel mehr Ramkanäle als so ein Desktop PC Mainboard aber eben in Form von Steckmodulen.

00:07:49: und da gibt es heute die dicksten Server Prozessoren haben sechzehn Ram Kanäle pro Prozessor, also das Achtfache von einem Desktop PC und dann auch noch zwei physische Prozessoren.

00:08:03: Das heißt also gleich Zweiunddreißig Kanäle!

00:08:05: Und wenn ich das dann da hoch rechne, dann komme ich ungefähr so auf Eins Komma zwei bis eins Komma sechs Terabyte Sekunde.

00:08:13: Also so ein dicker Server Prozess Server mit zwei Prozessoren und wirklich alle Rahmenkanäle bestückt kommt auf ungefähr dasselbe was ein so ein winziger HBM Stack alleine kann, also in der Größenordnung von eins Komma

00:08:28: x

00:08:28: Terabyte Sekunde.

00:08:29: Das ist ja schon mal eine ganz schöne Speicherkompression.

00:08:32: auf einen Chip dann oder darum geht's.

00:08:34: Darum geht es.

00:08:36: Okay das war jetzt der Vergleich zu so eher klassischem DDR-Fünfram mit zwei bis sechzehn Kanälen mal zwei.

00:08:45: aber es gibt ja noch schnellere Speicherarten.

00:08:47: auf Grafikkarten zum Beispiel gibt es ja mittlerweile GDDR sieben.

00:08:52: Ja

00:08:54: Das steht ja für Graphics.

00:08:58: Also GDDR gibt es schon seit Jahrzehnte, du bist ja der Grafikkartenexperte und das entwickelt sich so im Takt eben mit den anderen Speichertypen so weiter.

00:09:13: Das ist übrigens bei HBM kann man gleich vorausschicken auch die eigentlichen Speicherzellen sind gar nicht der Witz mehr so an die Generation der Fertigung gebunden, sondern ist eher so wie dieser Speicher organisiert.

00:09:24: Ist ein VR Angebundnis genau das erklären wir gleich auch.

00:09:28: und deswegen is also GDDR sieben... ...is dass was wo in Grunde die Speicherzellen von DDR aktuellen DDR-Fünf Chips drin steckt aber ganz anders organisiert und eben mit höheren Taktraten.

00:09:41: und ähm Die derzeit schnellste PC Grafikkarte, die NVIDIA GeForce RTX-Fünfzigneinzig.

00:09:48: Die hat Zweiunddreißig Gigabyte GDDR Siebenspeicher, der über fünfhundertzwölf separate Datenleitung angebunden ist und da kann sie dann eben ungefähr so eins Komma acht Terabyte Sekunde das hängt auch ja vom konkret Takt ab.

00:10:02: aber dass sie Größenordnung können die übertragen Und wir haben es schon gesagt, also die vier HBM-III Stacks in einem KI-Beschneuniger sind dann ungefähr doppelt so schnell kann man sagen.

00:10:16: Was wäre da die Größenordnung?

00:10:18: Ja

00:10:18: aber du hast ja schon gesagt über fünfhundert zwölf Datenleitungen das ist ja schon mal alleine Das ist ja ein Faktor Vier im Vergleich zu normalem Arbeitsspeicher an dem Desktop PC.

00:10:27: Also das ist eine wichtige Kenngröße.

00:10:30: offenbar

00:10:31: Genau!

00:10:31: Die Zahl der Datenleitung die ist der Trick bei ganz vielen Speicherinterfaces.

00:10:37: So, da sind wir wieder und mich interessiert jetzt noch einen Vergleich.

00:10:41: Nämlich den hast du auch schon angesprochen zu LPDDR-Fünf Speicher Der ist ja nicht in so Modulen organisiert und den nutzt Apple für seine M Prozessoren Und die sind ja wahnsinnig schnell und haben auch Wahnsinnig viel Speichertransferrate oder?

00:10:56: Genau aber nichts im vergleich zu HBM.

00:10:59: also LPD DR Fünf steht ja eigentlich für low power DDR fünf.

00:11:03: das ist ein bisschen kontakariert worden weil Ursprünglich mal war das eben wirklich nur zum Strom sparen und gar nicht für die Aufgeschwindigkeit optimiert, diese LPDDR-Fünf Chips.

00:11:15: Aber es hat sich gewandelt.

00:11:18: Die sind zwar immer noch sparsamer als DDR-Fünf aber sie können auch schnell, die takten sehr hoch.

00:11:24: Das wollen wir jetzt schon anreißen... Also ganz kurz kann man sagen, dass liegt daran, dass sie fest verlötet sind Prozessor angebracht werden können genau ähnlich wie bei dem g ddr.

00:11:36: Bei der grafikkarte.

00:11:37: viele haben das bild vielleicht vor augen wo dass um den prozessor dann so die grafik chips so drum rum angeordnet sind und dann kann man nämlich diese leitung besser verlegen.

00:11:47: Und das geht eben ganz gut auch mit lpd dr fünf oder led r fünf x. dieses x ist da immer so eine zone zwischen generation.

00:11:55: meistens haben wir einfach nur höheren takt.

00:11:57: Das geht mittlerweile Um die vier Gigahertz und ein bisschen drüber, also der heißt dann LPDDR-Fünf-Achtausend Irgendwas weil er halt mit Vier Gigaerts Double taktet.

00:12:09: Und wenn man da genügend Chips, da sind wir wieder bei dem Thema.

00:12:12: Viele Datenleitungen daneben läutet dann kommt man beim... Bei den einfachen M-Chips wie sie auch in dem MacBook Air stecken also mv, mv fliegen im Bereich so hundertzwanzig bis hundertfünfzig Gigabyte Sekunde.

00:12:25: Also Null Komma Eins Zwo Bis Null Komma Eins Fünf Terabyte Sekunden schneller als

00:12:30: ein

00:12:31: Double also einen zwei Kanal Interface bei einem Desktop PC also deutlich schneller bis zu fünfzig Prozent schneller aber eben noch sehr weit weg von HBM mit über einem Terabyte.

00:12:44: Und dieser Kollege Florian Müßig, der hat gerade den aktuellen, das MacBook... Oh!

00:12:51: Das aktuelle mit N-Fünf Max getestet?

00:12:54: Das ist ja der so ein Multi-Chip verbunden, wo auch jeder Chip mehr also ein eigenes LPDDR V Interface mit sehr vielen Datenleitungen hat.

00:13:02: Der bringt es immerhin auf sechshundert Gigabyte Sekunde.

00:13:05: Also null Komma sechs Terabyte Sekunden.

00:13:09: für den Notebook schon echt zügig, aber eben wie gesagt immer noch ein HBM-Stack kann schon doppelt so schnell sein.

00:13:16: Aber ist dann vom Aufbau ja fast ein bisschen so ähnlich wie so einen KI-Beschleuniger mit mehreren Prozessworkships und direkt verlöteten Speicherchips und sehr kurzen Datenleitungen?

00:13:28: Nur eben mit klassischen Speicher chips und keinen HBM Stacks?

00:13:32: Genau!

00:13:33: Okay, wir haben vorhin mal ganz kurz schon darüber gesprochen dass HBM Stapelspeicher ist.

00:13:39: Also gesteckt ausgeliefert wird und ein Chip in Wirklichkeit mehrere Datendis enthält.

00:13:46: Da wollte ich gerne nochmal jetzt ein bisschen drauf zurückkommen.

00:13:51: Wie genau funktioniert das?

00:13:55: Was macht HBM so schnell außer Dass er halt dicht dran gelötet wird an den Prozessor wo er zugehört?

00:14:04: Das ist eine sehr komplexe Mischung, deswegen werden wir jetzt noch länger darüber reden.

00:14:10: Aus einer technischen Idee nämlich möglichst viele Datenleitung zu verwenden zur Anbindung dieser Chips diese dann auch noch zu stapeln um eben die die einerseits die Datensignaleitungen sehr sehr kurz zu halten das ja logisch.

00:14:26: also wenn man den Chip übereinander stapelt also viel kürzer kann die Leitung nicht mehr werden Dann die Leitung nicht außen rum um den Chip zu legen, sondern indurch.

00:14:36: Das ist ja auch mal eine lustige Idee sozusagen.

00:14:40: dazu werden aber nicht etwa naja doch die wären schon irgendwie durch Bord die Chips kann man sagen.

00:14:45: und damit das dann auch noch super dicht an dem Prozessor daneben passt braucht man da noch mehr mechanische und spezielle Voraussetzungen die das ganze eben sehr sehr teuer machen im Vergleich zur anderen Der am techniken.

00:15:00: aber nur mit diesem trick kriegt man halt diesen wahnsinnigen datentransferaten hin die dann eben Speziell bei ki solche großen vorteile bringen.

00:15:12: Okay, dann lass uns doch mal an die mit den daten leitungen anfangen.

00:15:16: wir sind da.

00:15:16: jetzt hatten wir vorhin besprochen weil desktop pc ist bei zweimal vier und sechzig bei servan ungefähr faktor zehn.

00:15:25: Und Wie viel Datenleitung hat denn so ein aktuelles HBM-Dreie?

00:15:29: und worum das her, was ist noch geplant?

00:15:34: Also ich sage es mal konkret.

00:15:36: Du hast gesagt also einen Kanal DDR-Fünf-Fünfvierendsechzig zwei Kanäle Desktop PC hundertundzwanzig die GeForce RTX fünftig neunzig haben wir fünfhundert zwölf gesagt ein dicker Server mit zwei Prozessoren und insgesamt zwei Kanälen also über zweitausend zwei tausend achten vierzig Das geht ja immer schön mit diesen zwei hoch End.

00:15:55: Ja, da muss man gar nicht so gut im Kopf rechnen sein.

00:15:58: Nee

00:15:58: genau kann man immer so zurückräuchten.

00:16:01: und dafür wenn ich diese two tausend achten vierzig leitungen aber über ein physisches mainboard verlegen muss dann brauche ich wahnsinnig viel platz weil ich muss ja bei dem server board reden.

00:16:12: wir von ganzen gesteckten speichermudulen kennen ja viele so ungefähr so hand handteller lang nicht ganz hoh.

00:16:19: also wie sind die schmaler?

00:16:21: Was gibt's denn linearförmig?

00:16:23: Ja,

00:16:24: ein bisschen größer als Kaomistreifen.

00:16:27: Genau und da ergeben sich dann aber Datensignalleitungslängen.

00:16:30: also der Speicherkontroller steckt ja heute immer im Prozessor.

00:16:34: das heißt die Signale müssen auch durch die Prozessorfassung durch.

00:16:37: Da habe ich schon die erste Störstelle Dann müssen sie auch noch auf das Modul.

00:16:41: Also ist eine Steckfassung noch ne zweite Stör Stelle.

00:16:44: Und damit ich dass überhaupt sechzehn Kanäle irgendwie physisch auf so einen Brett kriege muss sich diese Datenleitung fahre auf der Platine verlegen und da komme ich in Größenordnung von zwanzig Zentimetern Signalweg.

00:16:58: Und das ist nicht gut für sehr hohe Taktfrequenzen, also schon mal der erste

00:17:02: Trick.

00:17:02: Ja, und bei denen auch... Entschuldigung, wenn ich dich gerade unterbreche!

00:17:07: Ich habe das noch so von früher als man die Signalleitung noch gut sehen konnte auf den PCBs im Hinterkopf.

00:17:15: Muss man da auch auf gleich Länge achten von den Signalwegen?

00:17:18: oder lässt sich das mittlerweile in Software ausgleichen?

00:17:21: Nein.

00:17:22: Das

00:17:22: ist ja einer der großen Unterschiede.

00:17:24: bei PCI Express zum Beispiel, also D-Ram-Interfaces sind ganz klassische parallele Busse.

00:17:34: Bei HBM ist es eben kein Bus mehr und bei LPDDR V eben auch nicht.

00:17:38: sondern dann habe ich eine Punkt zu Punkt Verbindung.

00:17:40: Das bringt auch schon was.

00:17:41: Wenn ich nicht mehr als ein Modul oder einen Chip anschließen darf, sondern mehrere, dann habe ich noch mehr Steherstellen und noch mehr Eventualitäten die das nicht gut für das Signal verhalten sind.

00:17:54: aber die Gleitungen müssen wirklich alle gleich lang sein denn ich habe da Laufzeiteffekte.

00:17:59: deswegen hab' ich sie zwanzig Zentimeter erwähnt also auf dem gängigen Platinumaterial FR-IV.

00:18:05: das hat eine elektrische die Elektrizitätskoeffizient von vier.

00:18:10: Dann kann man damit die Laufgeschwindigkeit im Verhältnis zur Lichtgeschwindigkeit auf den Material ausrechnen.

00:18:17: Und da, wenn ich hier über Taktzyklen von Nanosekunden rede dann kommen diese Signale schon gar nicht mehr gleichzeitig bei diesen... Also Die Laufzeit ist länger als der Takt.

00:18:30: Das heißt, der Prozessor schickt was los und erst mehrere Takte später kommt Antwort wieder an.

00:18:36: Also ich meine nicht den Prozessor-Takt, sondern ich meine schon den Rammtakt und deswegen schon alleine deshalb damit überhaupt die Chips auf dem Modul die Chance haben gleichzeitig zu antworten müssen wirklich die Signalpfade gleich lang sein das heißt sie müssen auch mehr andert werden je nachdem wie lange eben.

00:18:56: äh die Äußeren müssen solche kleinen Schleifchen laufen Und deswegen verkürzt man sie ja so drastisch.

00:19:02: dann bei diesem High Bandwidth Memory braucht beziehungsweise nur ein wesentlich kürzeren Ausgleich, weil die ähnlich lang sind.

00:19:12: Aber du hattest vorhin nach der Zahl

00:19:13: gefragt?

00:19:13: Ja genau!

00:19:14: Also

00:19:14: wir haben jetzt gesagt GeForce RTX-Fünfhundertzwölf, Dicker Server zwei Tausend Achtund Vierzig und tatsächlich in diesen seit der ersten High Bandwidth Memory Generation also gibt's schon seit zehn Jahren HBM, HBM II und HBM III haben tausend vierundzwanzig Datenleitung aber eben nicht für mehrere Chips sondern hat jeder Stack Nicht Chip, ich hab Chip gesagt.

00:19:37: Böse, böse, böse

00:19:38: Stack!

00:19:39: Der Stack hat Tausend vierundzwanzig Leitungen also einer davon und wenn da jetzt vier Stacks um den Chip rum sitzen reden wir also über Viertausend also tausend vierundzwanzig.

00:19:51: was sind sein viertausends

00:19:52: sechsundneinzig?

00:19:53: Vierdausends

00:19:54: Sechsundneunzig danke du bist besser.

00:19:57: Nee, Viermalvierund zwanzig doch ja.

00:19:59: Vierziesächs neunzig Da sind wirklich über viertausend Datensignaleitungen dann dazwischen diesen Stacks und der GPU verlegt.

00:20:09: Und jetzt kommt das Problem, was es so teuer macht?

00:20:12: Wir wollen ja kurze Signaleitung und Chipstacking – das ist jetzt wirklich nichts Neues!

00:20:18: Das macht man schon lange zum Beispiel in einer publiken MicroSD-Karte und die waren ja bis vor Kurzem muss man ja dazu sagen eigentlich relativ billig.

00:20:28: Ich glaube vielen ist es nicht bewusst, aber in den hochkapazitiven micro SD-Karten.

00:20:32: Die sind ja nur ein Millimeter hoch.

00:20:34: deswegen ist das immer so.

00:20:35: ein schönes Vergleichsbeispiel.

00:20:36: und Fingernagel groß da sitzen bis zu siebzehn Speicherdais oder sechzehn speicherdais und einen Controller die übereinander drin.

00:20:47: Das ist.

00:20:48: Aber das ist heute Standartechnik die kann man relativ günstig.

00:20:51: das eigentliche Stacking ist nicht das große Problem Das würde gar nicht passen, wenn man wirklich die rohen Chips aus dem Wafer nimmt.

00:20:59: Sondern die muss man dünnen.

00:21:01: Das nennt man Wafer-Cinning.

00:21:02: das ist aber auch Standardverfahren sonst würden sie ja nicht auf einen Millimeter passen und deswegen sieht man auch nicht dass das ein Stack ist.

00:21:09: später wenn es fertig ist weil die Chips wirklich Bruchteile von einem Mikrometer runtergeschliffen werden und dann erst gesteckt werden.

00:21:18: Aber jetzt kommt der Unterschied zur MicroSD Karte.

00:21:20: bei der Micro SD Karte sind diese mehreren.

00:21:24: Da ist untereinander mit relativ wenigen Kontakten und mit klassischem Bonding verbunden.

00:21:29: Da sind also wirklich seitlich Bonding-Drähte angebracht, die werden ja nicht gelötet sondern so drauf reibschweißen kann man das nennen.

00:21:37: Die werden da so drauf vibriert wenn man so will.

00:21:40: Mit Automaten, also da sind es niemand unter dem Mikroskop und fubbelt die daran.

00:21:44: Aber das ist dann noch ein relativ günstiges Verfahren auch wenn... Genau!

00:21:48: Das ist ein Standard-Heimgefahren.

00:21:49: wie man

00:21:50: kompliziert klingt

00:21:51: Genau wie man das klingt erst mal genau.

00:21:53: Das ist ja immer das Problem, dass wenn man gar nicht kennt diese Technik dann ist ja schon die etablierte zehn Jahre alte technik oder fünfzehn jahre alte zwanzig Jahre alte Technik wo du weil man sich das nicht vorstellen kann dass da drin lauter kleine golddrähtchen sind der siebzehnt chips miteinander verbinden und so weiter.

00:22:11: aber das ist die alte Technika.

00:22:13: bei hpm stecks hat jedes dieser dies tausend vierundzwanzig Kontakte.

00:22:20: Also nur für die Datenleitung.

00:22:22: Guck mal nachher noch drauf, da brauchen wir noch mehr.

00:22:24: und die liegen so dass sie genau übereinander liegen und zwar auf wirklich Mikrometer Genauigkeit übereinander liegen Und dann untereinander verbunden sind und zwar eher in der Mitte Der einzelnen DICE also nicht am Rand sondern in der mitte und dann kann man die eben schön übereiner stapeln und Da entsteht sozusagen ein vertikaler bus der danach unten durchkontaktiert wird.

00:22:49: Das ist eben diese Datenleitung, die durch die Chips, also vertikal, durch das Silizium der einzelnen Deys durchgehen.

00:22:56: Die nennt man Through Silicon Vias, kurz TSV.

00:22:59: und diese Stacking-Technik, die ist schon noch relativ aufwendig.

00:23:05: Und das macht es dann also primär super teuer?

00:23:10: Ja!

00:23:10: Es gibt da mehrere Faktoren.

00:23:12: Also erst mal ist der mikromechanische Aufwand hoch.

00:23:14: Das kann man sich vorstellen... Ich hatte schon gesagt, die eigentlichen Speicherzellen und die Speicher zählen Felder.

00:23:22: Die sind nicht viel anders als bei anderen DRAMT-Chips.

00:23:26: Die ist aber anders organisiert eben in ... Mit jeder Datensignaleitung spreche ich ja im Prinzip ein Mini-Speicherfeld an.

00:23:36: Und die sind eben in kleinere Unterzellenfelder sortiert.

00:23:41: Da sind also anders organisierten, nennt man das!

00:23:45: Tendenziell komme ich dann durch diese wahnsinnig vielen Datensignaleitung mit niedrigeren Taktfrequenzen auf dieselbe Datentransferrate für den gesamten Stack.

00:23:55: Das ist einer der Tricks dabei!

00:23:58: Und jetzt muss ich diesen Chip sehr präzise fertigen und ich habe natürlich ein Ausbeuteproblem, weil wenn ich diese Chips staple, da muss ja auch jeder sehr gut mit dem anderen harmonieren.

00:24:13: Also, der muss erstmal vollkommen funktionieren.

00:24:16: Kann ich nicht irgendwie ausgleichen oder sowas?

00:24:19: Die müssen auch alle diese sehr gute Qualität erzielen und sie müssen auch mechanisch super gut passen.

00:24:27: also es darf da keine Verwerfung und so was gehen Und deswegen ist eben die haben dir ein Ausbeuteproblem sozusagen.

00:24:35: also die haben weniger.

00:24:36: Man nennt man glaube ich hielt dieses Pistolen Begriff.

00:24:41: Das macht das eben relativ teuer.

00:24:44: Und zu den Tausend vierundzwanzig Leitungen kommt hier noch dazu, Leitung für Stromversorgung und die Zugriffsteuerung.

00:24:49: also jetzt bitte schreiben, jetzt bitte lesen, Refreshing-Zyklen werden über solche Steuerleitungen gemacht.

00:24:57: Das ist also tendenziell natürlich genau wie bei einem Speichermodul aber das hat vielleicht auch nicht jeder im Kopf wieder so geht.

00:25:04: Und dann brauche ich natürlich auch noch Adressleitung.

00:25:06: Also ich muss ja... dem ding sagen diese son so ein deramt chip ist ja eigentlich erst mal doof.

00:25:12: Der tut nur was ihm gesagt wird, der hatte jetzt keine wahnsinnslogik sondern dieses schreiblese verstärker.

00:25:17: aber du musst immer sagen ich hätte jetzt gerne folgende adressen bitte sende mir diesen signaler auf den Auf dieser datensignaleitung.

00:25:28: So dann bei verthing hat dich schon erwähnt und ich habe also diese gedünnten chips die werden übereinander gelegt Dann müssen die eben sehr planparallel auch abgeschliffen sein.

00:25:42: Also das ist eben, sie müssen wesentlich präziser gearbeitet sein als bei zum Beispiel mit dem Beispiel micro SD Karte.

00:25:48: Da können wir ruhig ein bisschen krumm und schief sein da kommt es ja nur auf das Bonding an der Seite an.

00:25:53: Aber hier müssen dir tatsächlich mit solchen winzigen winzige winziger Kontakt genau aufeinander passen und dazu auch plan parallel sein.

00:26:02: Okay, dass klingt irgendwie nachvollziehbar Das ist natürlich schwierig und teuer.

00:26:07: Aber du hast gesagt, die werden quasi einfach nur aufeinander gepresst.

00:26:11: Das klingt dann ja... Wenn sie dann erstmal passen, klingt das ja wieder relativ einfach oder?

00:26:17: Naja wir reden hier über ein Dieb.

00:26:21: was zum Beispiel zwanzig, also Twenty Micron steht da so, dass sind ja null Komma zwei Millimeter dicker hat und wo in der Mitte paar tausend Kontakt stupsel irgendwie aufeinandepassen müssen.

00:26:38: Das stelle ich mir persönlich schwierig vor, gibt es aber auch Automaten für die das machen.

00:26:42: Also das macht man...das macht jemand unter Mikroskop und diese Technik ist derzeit sind das wohl sogenannte Micro-Bumps.

00:26:50: Das sind winzige Kupferkontakte.

00:26:52: Soweit ich weiß, sind sie through Silicon Vias üblicherweise Wolfram als Metall.

00:26:58: Ist ja nur eine kurze Stecke also nur zwei Millimeter, die da durch den Chip durchgehen und damit die aber miteinander kontaktiert werden können.

00:27:06: Das Wolframm ist ja extrem hitzefest, also das verändert sich nicht wenn ich es erwärme.

00:27:12: Da nimmt man da Kupfer, da wird also Kupfe irgendwie drauf gebracht und strukturiert und dann werden sie gepresst und bei Wärme miteinander quasi verbacken.

00:27:20: Also muss ja am Ende so eine gasdichte Verbindung sein.

00:27:26: Dazu müssen die Oberflächen der DAIS natürlich superplan- und planparallel sein Und zwar je höher der Stack wird, desto weniger können da die Veränderungen sein.

00:27:37: und dann kommt fast dazu was eben eine Besonderheit ist.

00:27:40: Was bei micro SD-Karten natürlich ganz anders isst.

00:27:44: Es geht ja hier um wahnsinnig hohe Datentransferaten und das braucht Strom Das heißt es entsteht Abkwärme.

00:27:52: Außerdem sitzen die Stacks ja noch dicht neben diesem KI Beschleuniger Chip dem eigentlichen Der auch nochmal eine Menge Strom verheizt.

00:28:00: Also wir reden ja hier teilweise über fünfhundert Watt und mehr, die wegrüssen... Genau!

00:28:07: Und das dabei dadurch entstehen starke thermische Wechselbahnspruchungen.

00:28:13: Das ist deshalb wichtig weil sich alle Materialien irgendwie thermisch aussehen.

00:28:19: Ja und alle unterschiedlich

00:28:20: werden bitte?

00:28:21: Und alle unterschiedlichen

00:28:23: Und alle eben unterschiedlich genau.

00:28:25: und da kommen jetzt die Probleme.

00:28:27: Da ist übrigens Nvidia gebranntes Kind, es gab vor auch das jetzt schon zwanzig Jahre her mal so Serienausfälle bei irgendwelchen G-Auschips.

00:28:37: Also

00:28:37: Notebook Chips

00:28:38: als sie auf Bly in dem Lötmaterial verzichtet haben?

00:28:42: Ja ich weiß nicht mehr genau was es war.

00:28:44: jedenfalls gab's dann also Cracks in diesem Lotverfahren aber das is ja grob motorik im Vergleich zu dem wo wir hier sprechen.

00:28:52: durch diese thermische wechselbeanspruch und das war ja nur in damaligen meckbox die irgendwie der ging es um irgendwie, dreißig watt oder sowas für die gpu wir reden also jetzt um mehrere hundert watt.

00:29:04: Und temperaturzyklen die diese diese chips haben ja auch drastisch die können ja wahnsinnig schnell ihre leistung ändern.

00:29:13: und wir reden ja hier immer noch über ein paar gramm siliziummaterial insgesamt.

00:29:17: das heißt wenn ich da dass ist ja quasi einen gut gekühlter kurzschluss wo ich fünf bis sieben hundert Watt durchjagen und habt dann aber diese ganze Abwärme.

00:29:25: Das heißt, also es treten erhebliche mechanische Spannungen durch die Ausdehnung auf und die wirken sich nun auf diese winzigen Kontakte auf, die da dazwischen sind.

00:29:38: Schonarland-Lissheim liebt man Kupfer weil das ja duktiler ist.

00:29:41: Also das kann ja...das verträgt ja besser, also weniger Spröde so kann man das sagen.

00:29:47: Und da liegt ein Erhebliches Know-how drin, wie man dieses Deck so baut dass sie die eben das über ein paar Jahre auch überleben.

00:29:58: Diese diese beanspruchen und eben ihre sehr komplexen Eigenschaften auch behalten.

00:30:04: ja und dass das also wenn man da sind die Hersteller auch sehr stolz drauf der hat vor allem SK Heinecks die haben es damals geschafft in einem gewissen Phase ihren Erzgegner Samsung, das sind ja beides südkoreanische Firmen und beides die führenden D-Ramenhersteller der Welt also schon unabhängig von High Bandwidth Memory über alle Speichertypen.

00:30:26: Und da haben sie so einen speziellen ultra dünnen Film dazwischen gebracht den nannten Sie Thermal Compression Non Conductive Film kurz TC NCF.

00:30:37: Das fanden sie irgendwie toll.

00:30:39: Und ich hab das deswegen irgendwie so erwähnt, weil Sie haben jetzt bei HWM-Drehe dieses Verfahren MR-Muff.

00:30:46: Das heißt irgendwie Mars Reflow Molded Underfill.

00:30:54: Das heisst der fließt da irgendwie so ein Underfill also so einen Füllmaterialfließer dazwischen.

00:30:58: man stellt sich das aber nicht so mikroskopisch vor.

00:31:00: Also wir reden hier von paar Mikrometern während eben diese Microbumps durch Hitze und Druck verbunden werden zwischen diesen einzelnen Dice, fließt dabei ein Epoxid-Material zwischen diese Kontakte.

00:31:14: Und nimmt dann wenn es ausgehärtet ist diese thermo-mechanischen Spannungen auf damit es da keine Risse in den Verbindern gibt.

00:31:25: Ich habe tausende von Kontakten das muss ja alles auf eine unfassbare geringe Ausfallraten funktionieren.

00:31:32: Das steckt nachher in sehr teuren Chips beschleunigern.

00:31:36: Aber grundsätzlich ist die Idee nicht neu.

00:31:38: Die gibt's schon ganz, ganz lange denn praktisch alle Prozessoren sind ja schon seit zwanzig Jahren.

00:31:45: Blipchip BGRs das heißt also dass Dai sitzt umgekehrt auf Lotkugeln also Ball Grid Array.

00:31:54: Blipship

00:31:55: heißt umgekehrt Ball GridArray also FCBGA Gehäuse auf so einer Epoxy Platine in der winzigen dem sogenannten Dye Carrier.

00:32:04: Und auch dabei, und das sieht man auch wenn man sich so einen Prozessor-Chip anguckt.

00:32:09: Man sieht es bei den Chipsätzen auf den Mainboards oft also auch da ist ein ganz gängiges Verfahren.

00:32:14: dann sieht man meistens eine komische Kunststoff.

00:32:17: Das sieht aus wie so ein Lack der daneben ist.

00:32:19: Ja

00:32:19: ja.

00:32:19: Und das ist dieser Epoxythandafil.

00:32:22: Der saugt sich durch Kapilarwirkung zwischen diese Lotkugeln und im Prinzip ist das MR-Muffin ähnliches Verfahren für sehr viel kleinere Bügestrukturen.

00:32:32: Darum geht es dabei!

00:32:33: Okay, dann fasse ich mal zusammen was wir bisher so erarbeitet haben.

00:32:37: Also Highband Miss Memory ist deshalb unter anderem so schnell weil es wahnsinnig viele Datenleitungen hat.

00:32:43: das ist wohl ja der große Faktor und die sind ja auch noch extrem kurz also absichtlich so designt um weil die Stapel halt auch direkt neben dem Prozessor sitzen dem jeweiligen.

00:32:58: Die Frage ist jetzt nun die ich mir stelle Ist der Takt vom HBM auch besonders hoch?

00:33:05: Hat es eine besonders hohe Taktrate oder ist das allein jetzt durch den Faktor vier, Faktur acht, Faktor zehn an Datenleitung.

00:33:13: Ja, das hat sich gewandelt tatsächlich vor zehn Jahren.

00:33:18: Da gab's diese berühmte... Wie heißt die noch?

00:33:21: AMD Radeon Fury oder so was?

00:33:23: Das war bis heute.

00:33:25: Ah ja!

00:33:26: Das waren bis heute einzige glaube ich Konsumer Grafikkarte mit Highband with Memory.

00:33:32: Nee, da gab es noch ein paar danach aber...

00:33:34: Ach so!

00:33:35: Okay dann noch die Wege.

00:33:37: Ah ja stimmt.

00:33:39: Und die hatte noch HWM der ersten Generation und da war das besonders lahmgetaktet.

00:33:46: Aber durch den vielen Datenleitung war's eben doch schneller als das damals aktuelle GDDR.

00:33:52: Was war das?

00:33:52: Drei wahrscheinlich oder sowas?

00:33:54: Zwei vielleicht.

00:33:57: Aber wie auch immer, also anfangs war es relativ langsam getaktet.

00:34:01: Und trotzdem schneller durch die vielen Datenleitungen und genau daran haben sie gedreht mittlerweile.

00:34:06: Mittlerweile habe ihm drei ist mittlerweile bei vier Komma acht Gigahertz.

00:34:11: Also das würde dann dem LPDDR fünf neuntausend sechshundert oder sowas entsprechen.

00:34:19: Das ist in der Größenordnung von aktuellen LPD DR fünf X oder gd r Sieben Speicher chips Aber eben nicht sonderlich viel schneller als andere.

00:34:29: Also das ist nicht die Taktrate an sich, es ist nicht höher als bei normalem Ramm sondern nur eben die wahnsinnige Anzahl der Datenleitung.

00:34:39: Okay also wenn man das mal eins zu eins vergleicht ein HBM Stack als ja Die Einheit die man so auflöten kann hat hast du gesagt?

00:34:51: Da

00:34:55: kommen wir nachher noch drauf, das soll sich dann steigern.

00:34:57: Also fast schon...

00:35:01: Und ein GDDR-Siebenchip oder ein Memory-Chip der hat, also ein GdDR-Sevenchip weiß ich nicht, hat zwei und dreißig Daten.

00:35:09: Genau

00:35:09: die gibt es mit sechzehn und zwanzig, aber der hat zum Beispiel zwanziger.

00:35:16: Wie ist das denn mit diesen Stapeln, die wir jetzt besprochen haben?

00:35:20: Die sind ja sehr, sehr flach.

00:35:25: Kriegt man das denn hin, dass der nicht höher als der eigentliche Prozessor ist?

00:35:30: Der ja nur aus einer Silicium-Schicht besteht.

00:35:34: Genau!

00:35:35: Da liegt... Das ist so eine Sache die einem immer...

00:35:39: Also ganz kurz noch warum.

00:35:41: ich frage, es ist ja wichtig zur Kühlung damit der Kühler halt glatt und gerade aufliegt.

00:35:46: Das Problem gab's zum Beispiel bei der Vega Grafikkartengeneration da war das noch optimal ausbalanciert, sondern da gab es gerade wenn man selber noch Wasserkühler nachgerüstet hat oder so.

00:36:02: Gab's öfter mal kaputte Chips oder besonders hohe Temperaturen?

00:36:05: Weil das eben noch nicht so plan war.

00:36:08: Genau also es gibt im Grundsätzlich ist das hier ein Co-Design sozusagen.

00:36:14: Das heißt die Chips sind ja für KI Beschleuniger gedacht und deswegen muss die ganze Technik und also sowohl die Herstellung der eigentlichen schneuniger Chips, der KI-Chips als auch die HBM Stacks.

00:36:30: Als auch die gesamte Fügetechnik und Packagingtechnik ist halt auf dieses Design ausgelegt.

00:36:34: Das ist ja nicht so dass man die von der Stange irgendwie kauft und dann da auflötet sondern die werden für bestimmte Chips qualifiziert und Da wird genau geguckt passt das zusammen?

00:36:45: und wie füge ich das?

00:36:46: Und wie krieg ich eben auch die Wärme weg?

00:36:48: Und das waren ja noch die, was du gerade erwähnt hast.

00:36:52: Du die Anfangszeiten von HBM?

00:36:56: Mittlerweile ist es zum Beispiel so, dass ist ja große Technik auch zum Beispiel der Reisen, der AMD Ryzen X-D mit diesem Extra Cash.

00:37:03: Der nutzt Grunde ein ganz ähnliches Verfahren.

00:37:06: dieser zusätzliche Cash Die wird hier auch mit Thru Silicon Vias Mit dem Prozessor Die verbunden und ist dann eine Einheit.

00:37:19: Also das kann man von außen nicht sehen, ob da so ein Chip drauf sitzt oder nicht.

00:37:24: Und bei den Ryzens, da kann man sich es ein bisschen besser vorstellen... Die bestanden ja die dickeren mit Mehrkernen auch aus zwei Chips und da hatte nur einer dieses Cache-Steil.

00:37:35: Jetzt kommt gerade der neue mit zwei Cache Steils!

00:37:38: Und anfangs hat AMD den ja noch aufgestapelt tatsächlich?

00:37:42: Das heißt auf das computer die

00:37:45: dann war die kühlung aber doof für das processor da wo die meiste wärme entstand.

00:37:50: Ja

00:37:50: und jetzt machen sie ja den trick dass ihr den drunter stapeln was bedeutet dass ja alle datensignaleitung Für den prozessor chip durch das dahin durchgehen müssen Durch dieses Cash-Stuy durchgehen.

00:38:04: Also da sieht man mal, wie was da für Sachen mit möglich sind.

00:38:08: aber in der ersten Generation haben sie es doch andersrum gemacht.

00:38:11: ich will darauf hinaus da gibt es Fortschritte das ändert sich auch auf und zu.

00:38:14: Und Bei dem man sieht das ja normalerweise bei AMD nicht weil ja der Prozessor Das sind hier die Desktop Prozessoren Die sind ja immer haben wir diesen Heatspreader obendrauf.

00:38:25: Aber natürlich müssen wenn ich ein Prozessore habe mit zwei Prozessors da ist müssen beide gleich hoch sein sonst Sonst haben die ja diese Berührung nicht mit diesem Heatspreader.

00:38:34: Und deswegen hat AMD dann immer auf denen, wo kein zusätzliches Dye Chiplet oder Cash Dye drauf war ein Blinddye aufgebracht also einfach ein Stück Silizium was dieselbe Höhe hat was da irgendwie aufgelötet keine Ahnung wie die das überhaupt machen angepflanzt war jedenfalls um diese thermische Durchleitung hinzukriegen.

00:38:57: und Das Silizium leitet zwar die Wärme nicht so super toll wie jetzt ein richtiges Metall, aber wir reden ja hier nur über eine dicke von... Was sag ich jetzt?

00:39:08: Null Komma fünf Millimeter oder sowas.

00:39:10: Da spielt das keine Rolle ist jedenfalls besser als Wärmelleitpaste.

00:39:16: Man könnte sich auch vorstellen dass man eben den Kühlerboden Unterseite entsprechend strukturiert.

00:39:23: Ja, die könnte man ja auch so bauen aber offenbar ist es billiger das anders zu machen.

00:39:28: Ich habe dann ja auch mechanische Probleme.

00:39:29: ich müsste den Kühler ja extrem präzise aufsetzen.

00:39:34: Das geht ja soweit.

00:39:35: also die sitzen ja so dicht nebeneinander bei dem KI Beschleunigern die HWM Stacks neben diesem KI Stack dass man das zum Teil mit bloßem Auge gar nicht erkennt auf einen ersten Blick.

00:39:47: Also man sieht das schon wenn man ganz genau hinguckt und aus einem bestimmten Winkel.

00:39:51: Man darf sich das nicht vorstellen, als würden die da ein paar Millimeter daneben sitzen.

00:39:55: Sondern die schließen zum Teil bündig ab!

00:39:57: Also es sind wirklich kaum zu erkennen dass sie aus mehreren... Dass man da mehrere Chips nebeneinander hat und dann sind eben so blind Blättchen zB drauf wenn die Stacks nicht passen würden.

00:40:09: aber sie sind auf jeden Fall.. Auf keinen Fall sind sie höher als der KI-Chip.

00:40:15: Ja, das wäre auch schlecht Gut.

00:40:19: Ähm, wie sieht das denn mit der Kapazität aus?

00:40:22: Wie viel Speicher fassen so HBM-Dies.

00:40:27: Geht es oder lassen sich da genauso hohe Kapazitäten mit erzielen wie mit DDR-Fünf oder LPDDR-Five oder so?

00:40:36: Ja aber nicht wie mit einem kompletten Modul.

00:40:39: Aber die Kapaziten sind erstaunlich hoch.

00:40:41: also in den verschiedenen HBM Generationen... ändert sich auch wie viele Dice pro Stack zulässig sind.

00:40:53: Das waren anfangs nur vier bei HBM, mittlerweile sind es glaube ich acht und bei HBM drei, glaub' ich wären zwölf möglich.

00:41:00: das sollen bald sechzehn werden in der Zukunft eben noch mehr.

00:41:04: da geht es auch um die Finning-Technik wie zuverlässig sie ist.

00:41:07: also so eine Roadmap das geht über Jahre ne?

00:41:09: Also das nicht so dass jetzt HBM sechs quasi übermorgen ist sondern erst irgendwie zwanzig dreißig oder sowas.

00:41:17: Aber das geht einfach darüber, dass man einfach mehr nackte Dice decken darf oder dass die Technik dafür ausgelegt wird.

00:41:27: Und dabei ist es ganz ähnlich wie eben auch bei LPDDR-Fünf oder DDR-Fünf.

00:41:33: Das ist glaube ich auch nicht allen klar.

00:41:35: deswegen sage ich's nochmal also beim billigen Speicher Anbufferdims für Desktop PCs oder so da sitzt Normalerweise.

00:41:43: es war früher auch schon mal anders, aber das sitzt normalerweise in jedem Chip Gehäuse was ich auf so eine Modul sehe.

00:41:49: Da sind ja zum Beispiel vier acht oder sechzehn Chips drauf da ist wirklich nur ein Deidrenn.

00:41:55: Das is bei Register Dims zum Beispiel anders.

00:41:58: da gibt es nämlich auch schon Stack Dice bis zu Vier übereinander Auch mit TSV Technik Aber Mit viel weniger Datenleitung pro Package.

00:42:09: Und bei LPDDR-FünfX oder so, da sind auch schon bis zu glaube acht oder sogar sechzehn Dice in einem Gehäuse.

00:42:19: Da können durchaus mehr Chips drin sein... ...oder mehr Dice pro physisch Barmgehäuser.

00:42:26: also das ist eigentlich Stand der Technik.

00:42:27: aber die müssen natürlich nicht so stark gedünnt sein Die dürfen auch dicker sein.

00:42:31: Aber wenn ich die Meters Faustecke dann muss sich dünner werden weil Tatsächlich gehen diese Tho-Silicon-Viers gar nicht durch den ganzen Wafer unbedingt hindurch, sondern eben nur durch einen gewissen Teil des Wafers.

00:42:44: und bis dahin schleufle ich dann später ab.

00:42:46: Die Rückseite von dem Wafer so dass der Kontakt da rausguckt.

00:42:51: Also es wird nicht mit kleinen Bohrern gebohrt, sondern die werden da reingeetzt und dann wird der Wolfram rein chemical vapor deposition ist das glaube ich also hinein abgeschieden oder gespattert.

00:43:03: keine Ahnung wie wir das machen.

00:43:05: Jedenfalls entstehen da so winzige Säulchen drin.

00:43:08: Und so komme ich dann eben auf erhebliche Kapazitäten.

00:43:12: Achso, und dann sage ich mal dazu also bei DDR-Fünf sind wir im Moment bei was sind die größten?

00:43:18: Zweiunddreißig Gigabit sind glaube ich größte.

00:43:22: Die gibt es noch sehr wenig.

00:43:23: Also auf einem Dai kriegen die im Moment... Gibt ja nur noch die drei großen Samsung SK Heinex und Micron schaffen es.

00:43:32: zweiunddreißig Milliarden sind doch Gigabit ungefähr zweiunddreißig Milliarden Zellen auf so einen Chip zu kriegen.

00:43:42: Gängiger sind eben noch diese vierundzwanzig Gigabits, die waren diese Zwischengröße weswegen wir jetzt auch einmal auch diese Vierundzwantig und Achtendvierzig Gigabyte Module im PC Bereich haben.

00:43:53: da hat man eben die damals also davor war es natürlich sechzehn.

00:43:56: Wir reden hier immer über diese Verdopplung so ein bisschen Moore's Law für DRAM Und jetzt sind halt die Grüßen.

00:44:04: und warum spricht man von Gigabit.

00:44:06: Das ist so ein bisschen traditionell bei einzelnen Chips, sprich man von Bit beim Modulen von Beid und für also sixen drei zwei drei Gigabits Entschuldigung sind halt acht mal vier ne vier gigabyte in einem chip.

00:44:22: und wenn ich davon jetzt acht speichern übereinander stapeln kann bei hbm drehe dann komme ich wiederum auf die so ein Stack haben kann.

00:44:33: Und in der nächsten Generation von KI-Beschleunigern, die jetzt kommen... Da weiß ich die genauen Zahlen, die angekündigt sind.

00:44:41: Da will AMD bei dieser MI-Fürhundertfünfzig X Instinct Mi Fierhundfünftig X, die soll glaube ich bis zu vierhundertdreifig Gigabyte Ein einzelner KI Beschleuniger haben.

00:44:53: aber ich glaub der besteht auch wiederum aus zwei GPU Chips.

00:44:57: also das ist ein bisschen schwer zu sagen wie viele Stacks dann da dran sind

00:45:00: Okay, aber das sind ja auf jeden Fall schon mal riesige Mengen deutlich mehr als ich jetzt zumindest bis heute in meinen Desktop überhaupt PC stecken könnte selbst wenn ich das Geld hätte.

00:45:12: Du hast doch letztes die KI-Test mit dem Ryzen da gemacht und zwanzigstechsundfünfzig Gigabyte rein gereinigt?

00:45:19: Mehr ging schon nicht!

00:45:20: Und das wurde schon deutlich untergetaktet.

00:45:22: Aber wir haben doch im Keller den AMD Server da, das Testgerät mit eins, sechs Terabyte oder sowas.

00:45:27: Oder ein Terabyte?

00:45:28: Im Server geht es ja aber am Desktop nicht.

00:45:31: auf jeden Fall sind das schon mal riesige Mengen allein schon für einen so beschloniger und arbeiten dann immer mehrere zugleich.

00:45:39: Ja, das ist ja der Grund warum Speicher so knapp ist.

00:45:41: Weil wenn hier Elon Musk sich hinstellt und rum prosaunt und angibt wie eine Tüte mücken dass er Hunderttausend KI-Beschleuniger jetzt da in Tennessee in seinen Colossus II steckt und das dann mit Gas-Turbinen versorgt weil das Stromnetz sonst schon zusammenbricht Deswegen ist das Ramm knapp, weil wir reden hier über wirklich gigantische Mengen.

00:46:09: Also da sollen dann hunderttausende Karten mit je... was weiß ich?

00:46:15: ...dreihundert bis vierhundert Gigabyte pro Karte stecken ja auch noch in Servern die nochmal RAM haben.

00:46:21: eigenes also klassisches DDR-Fünf an der CPU oder eben LPDDR-Fifth X wie es Nvidia macht bei dem Vera und jetzt eben bei dem Vista.

00:46:32: Nee, Vera

00:46:32: kommt ja erst noch.

00:46:33: Genau bisher war es Grace mit fünfhundert Gigabyte pro CPU Teil und dann demnächst eins Komma Fünf Terabyte auch Pro CPU Teil.

00:46:44: Das sind wirklich riesige Mengen an Ram die da drin verschwinden.

00:46:48: Und das ist RAM der sehr sehr sehr gut bezahlt wird von den KI.

00:46:52: Firmen inzwischen mit sehr viel Kapital und Du hattest es vorhin schon erwähnt.

00:46:56: deswegen switchen Dann Dram Hersteller auch ihre Waffer.

00:47:00: Produktion

00:47:01: Ganz genau, der Aufwand... Also die einzelnen HBM-Dais, die sitzen ja auch auf einem Waiver ganz normal.

00:47:10: Hab ich ja schon gesagt bis auf die Anordnung wie die gemacht sind und diese Thucilicon-Vias, die noch eingebracht werden müssen.

00:47:19: Aber auch da hab' ich schon gesagt es gibt auch Serverchips, die auch TSVs haben oder an anderen Stellen.

00:47:24: Die lassen sich im Prinzip auf denselben Anlagen fertigen wie ganz normale andere DRAMT Chips.

00:47:31: Die müssen aber sehr viel präziser sein.

00:47:33: Ich hab also mehr Ausschuss, ich kann diese Chips auch nicht für was anderes verwenden.

00:47:37: Ja das ist vielleicht auch nochmal wichtig zu verstehen wenn man sich jetzt noch nicht so da rein gedacht hat.

00:47:42: Ich kann nicht etwa einen LPDDR-Fünf und schon erst gar keinen HBM Chip auf ein normales DRAM Modulöten.

00:47:50: Haben vielleicht Leute eine falsche Vorstellung?

00:47:52: Also wenn ich den Speicher... Wenn ich den Wafer erstmal gefertigt habe für dieses Marktsegment.

00:48:00: Dann ist diese Kapazität von so und so viel Tausend Wafers starts pro Monat auf meiner Chip-Wertigungsanlage, die ist eben für klassische Speichermodule verloren.

00:48:11: Und ich kann auch zum Beispiel bestimmte Server-Bauformen von DDR-Fünf Chips nicht

00:48:19: auf

00:48:20: PC-Speichermudule löten.

00:48:22: Also wir haben eine andere Anzahl von Datensignaleitung.

00:48:27: Insofern ja ich kann die im Prinzip auf den selben anlagen fertigen und ich kann das auch relativ schnell umstellen.

00:48:33: Und ich kann möglicherweise dieselben also relativ schnell die wafer mischung ändern, aber Ich habe ja immer mittlerweile bis so ein wafer da durchgelaufen ist dauert es ja monate und Da kann man nicht mal eben schnell.

00:48:49: in der woche mache ich diese chip sorten und in jeder woche die next chipsorte.

00:48:53: Und da die Speicher-Chiphersteller offensichtlich an dem HBM deutlich mehr verdienen als anderen Chipsorten, deram Sorten haben sie auch größere Lust die herzustellen.

00:49:06: Insbesondere wir haben ja jetzt ganz viel über diese ganze Fügetechnik geredet kann so ein KI Prozessor Hersteller nicht so schnell auf einen anderen Chip weg.

00:49:17: Das ist ja eben kein Steckmodul, darum geht es ja gerade.

00:49:20: Sondern die müssen bei der Produktion muss das alles genau passen und die müssen miteinander harmonieren.

00:49:27: Das heißt er kann nicht so schnell weglaufen zu einem anderen Konkurrenten.

00:49:30: Das macht es natürlich noch attraktiver aus der Sicht eines Zulieferers einen relativ exklusiven Kunden zu haben.

00:49:37: Und die KI-Firmen haben ein ganz andere Kostenstruktur weil sie werden denen aus den Fingern gerissen...

00:49:46: Na klar!

00:49:47: Also man denkt immer so alle wollen nur Nvidia, das stimmt zum Teil auch.

00:49:52: Aber man vergisst immer die Nachfrage von diesen, ich sag jetzt mal propräätären KI-Beschleunigern also Google TPU, Amazon Inferentia und Tranium Microsoft Maya den sie jetzt da haben.

00:50:06: Das sind ja auch noch riesige Stückzahlen, die dazu kommen, die wir gar nicht sehen weil die verschwinden.

00:50:10: in diesem Cloud Rechenzentren oder in diesen KI Rechencentren sieht keiner.

00:50:16: Die brauchen im Prinzip dasselbe HBM, aber eben wieder speziell für ihren Chip da angepasst.

00:50:24: Und diese Nachfrage ist offensichtlich gigantisch und verdrängt die anderen Chips aus den Produktionsanlagen.

00:50:35: Okay also haben die D-Raumhersteller dann auch keine Veranlassung zu sagen wir haben jetzt ein bisschen wenig DDR-Fünf Wir machen jetzt mal nächsten Monat zwei Wochen lang Ja, den billigeren Speicher.

00:50:47: Warum sollten sie?

00:50:47: Wenn Sie den teuren HWM verkaufen können bzw..

00:50:50: Also sie versuchen das schon zu verbessern.

00:50:54: Es gibt zum Beispiel Kooperation mit diesen sogenannten... also mit denen... Was heißt nicht?

00:51:01: Also es gibt so Patentpartnerschaften weil da gibt's zum Beispiel Nannja Und PSMC und also die werden auch Power Chip genannt.

00:51:12: Und Windbond, das sind drei DRAM Hersteller in Taiwan... ...und die fertigen mit Lizenzen der großen DRAM-Hersteller zum Beispiel.

00:51:22: Also meistens noch kein DDR-Fünf oder erst recht keine HBM aber eben z.B.

00:51:27: DDR IV oder LPDDR IV.

00:51:29: Das trifft zum Beispiel den Raspberry Pi.

00:51:32: Da gibt es ja auch so ein Speicherknappheitsproblem.

00:51:35: Die versuchen das schon zu steigern.

00:51:37: Ein also das ist sozusagen etablierte Technik.

00:51:39: DDR vier ist jetzt schon.

00:51:40: wie alt?

00:51:41: ist es noch schon fünfzehn Jahre alt?

00:51:42: ich weiß gar nicht zehn auf jeden fall.

00:51:45: Das heißt die kaufen zum beispiel von anderen chip herstellern wo's nicht so gut läuft, die reinräume aufstellen da neuere maschinen rein und versuchen dann zb über auf diesem weg den druck für diese marktsegmenten also der der der raspberry pi der arbeitet ja auch mit lp ddr hier.

00:52:04: Das kann man dann auch auf älteren Anlagen fertigen, wo man vielleicht auch schneller zusätzliche Kapazitäten schaffen kann.

00:52:11: Also so wird Schut raus, dass man das probiert weil das natürlich durch die hohen Preise ist es für die auch lukrativ ja?

00:52:18: So ist es nicht.

00:52:19: aber die gehen natürlich die Lieferverpflichtung gehen sie eher in diesem KI-Markt ein, wo im Moment einfach kann man wirklich sozusagen Geld keine Rolle spielen.

00:52:27: Im Moment wird noch da Geld reingeschossen.

00:52:29: Hauptsache ich kriege diesen Lieferkontrakt.

00:52:32: Also die Blase ist noch nicht geplatzt.

00:52:36: So, du hattest es vorhin schon mal angesprochen.

00:52:39: Es gibt noch Pläne für weitere HBM-Versionen in der Zukunft.

00:52:44: Das gibt eine Roadmap.

00:52:46: Können wir da vielleicht nochmal kurz drauf einigen?

00:52:48: Kennst du da nochmal kurz was zu sagen, was denn so alles geplant ist ...

00:52:53: Wir haben noch einen Aspekt vergessen den ich noch ganz kurz reinbringen will weil er dabei auch ne Rolle spielt.

00:52:59: Man stellt sich ja so vor Vielleicht?

00:53:02: Keine Ahnung.

00:53:03: Ich habe mir das immer so vorgestellt, als ich das erste Mal gehört habe, dass HBM und GPU diei oder KI beschleuniger diei nebeneinander sitzen, dass sie eben wie bei solchen Prozessoren auf einem Diecarrier sind also einer schon speziellen Platine.

00:53:19: weil so ein Diecarriere der im Grunde den Chip Träger bildet hat ja auch schon irgendwie zwei Dutzend Metalllagen Während so eine klassische Server Platine hat.

00:53:31: vielleicht also mittlerweile haben die auch zwölf oder achtzehn, aber hatte früher mal sechs oder acht Lagen.

00:53:36: Das heißt das sind auch schon sehr komplexe Platinchen Aber das reicht für habe ich gar nicht sondern da sitzen weil man ja diese tausenden von Leitungen verlegen muss Die sitzen auf einem sogenannten Silizium Interposer.

00:53:49: dass ist wie ne winzige Platiner aus Silicium wo man wo die nicht aktiv isst.

00:53:54: Also die hat keine Halbleiter-Funktion, sondern die hat da sind nur die Leitungen drin verlegt aber mit Methoden der Chipfertigungstechnik.

00:54:02: Das ist quasi der reine Metal Layer und das hat auch den Vorteil dass natürlich diese Basis dann einen ähnlichen Ausdehnungskorrezenten hat wie eben die darauf gestapelten Chips muss man wollte ich noch mal dazu sagen Und natürlich begrenzt die maximale Größe des Interposers wie groß oder wie viele chi chips mit wie vielen hbm stecks ich nebeneinander setzen kann und auch da ist die hb m roadmap jetzt bin ich wieder bei der roadmap spielt eine rolle.

00:54:32: man überlegt auch größere inter poser zu bauen also Die werden in zukunft einfach auch physisch größer.

00:54:40: man setzt dann nicht mehr nur zum beispiel zwei also die größe eines chips eines physischen.

00:54:47: dies ist ja das hast du glaube ich öfter auch mal geschrieben dass die sogenannte reticle size das is so wie groß kann eine belichtungsmaske für einen chip überhaupt werden?

00:54:58: und da hat man da gibt es ein traditionelles maß also glaube ich in der grössten ordnung von einem zoll ne?

00:55:02: zweikommer fünf vier mal zwei kommer fünf vier.

00:55:05: Das sind glaube ich so acht hundert Quadrat Millimeter.

00:55:07: stimmt das überhaupt?

00:55:08: was sich jetzt ungefähr bisschen

00:55:09: über acht hundert ist das größte, was ich bis jetzt gesehen habe ja

00:55:13: genau.

00:55:13: Das heißt also, wenn man noch mehr Transistoren braucht auf seinem Superchip dann muss man zwei zusammen flanchen und auch dazu hat man halt diese modernen Packaging Methoden wo man wahnsinnig viele Kontakte eben aneinander auff bringt.

00:55:28: Also wirklich mittlerweile Tausende pro Quadrat Millimeter Und die nebeneinander dann auf so ein Carrier setzt und da wird auch schon klar dass sie sich natürlich nicht mehr großthermisch verändern dürfen.

00:55:38: Sonst sind die Kontakte einfach nicht miteinander.

00:55:40: Man kann das nicht auf einer Platine realisieren.

00:55:43: Erstmal weil dieses Epoxy Material einfach viel zu grobe Strukturen hätte und, weil es sich zu stark mechanisch verändern würde durch thermische Wechselung.

00:55:52: So jetzt zur HBM Roadmap.

00:55:55: also da wurde von einer das war so ein bisschen von einem koreanischen Institut heißt die kooperieren eben sehr eng mit der DRAM Industrie Die haben so eine Roadbombe veröffentlicht und wird nicht zwingend eingehalten sondern spielt im Grunde die technischen Möglichkeiten durch und sagt so in welche Richtung es gehen müsste, damit das überhaupt funktioniert.

00:56:19: Und da gibt's eben einfach genau wie man sich das eigentlich vorstellen könnte.

00:56:22: Es gibt so drei Parameter an dem man dreht.

00:56:26: Ich wollte sie eigentlich zählen aber jetzt fallen Sie mir gar nicht mehr ein.

00:56:28: Also Das erste ist ganz klar die Anzahl der Datenleitungen.

00:56:31: total einfach Ja, d.h.

00:56:34: bei HBM IV gehts erst mal hoch auf Und dann kann ich die Frequenz hochdrehen.

00:56:50: Da hab' ich vorhin gesagt, da sind wir jetzt bei vier Komma acht Gigatransfers Dann kommen dann eben acht, sechzehn, vierundzwanzig und zwain dreißig.

00:56:58: Also irrsinnige Steigerung, Faktor Acht Aber das sind wir glaube schon im Jahr zwanzig, achten Dreißig oder sowas, wann das kommen soll.

00:57:05: also diese Planung ist wirklich auf zwölf Jahre so.

00:57:08: Das ist ein langfristiger Horizont.

00:57:10: jetzt alles, was wir gerade reden

00:57:12: Genau.

00:57:13: Und die Anzahl der Datenleitung, die sollen da noch mehrfach, also noch zweimal verdoppelt werden.

00:57:17: am Ende sind wir dann bei sechzehntausend

00:57:21: dreieinhalbzig?

00:57:21: Ui und so alle drei Jahre wird da alles mögliche verdoppelte.

00:57:26: und dann gibt es auch noch die Anzahl der DICE, die übereinandergestapelt werden.

00:57:32: Die gehen glaube ich hoch auf bis zu von sechziehn auf habe ich jetzt glaube ich gar nicht ausgelesen.

00:57:40: also sind dann mehr.

00:57:40: auf jeden fall kommen die auf bis zu zweihundertvierzig gigabyte pro stack.

00:57:45: Also das sind irrsinnige zahlen.

00:57:51: und zwanzig, achtunddreißig die zahl hab ich mir noch mal notiert.

00:57:55: da wären es dann vielen sechzig terabyte sekunde pro stack und der sollen dann aber auch irgendwie mehr als zehn stecks oder sowas pro Auf einem größeren Interposer.

00:58:07: Ach du.

00:58:08: Rokai beschleuniger möglich sein, also da kommen wir in die Größenordnung.

00:58:11: dann von Peter Beidsekunde an.

00:58:15: Datentransferrate was sie sich so vorstellen.

00:58:18: das sind also schwierige.

00:58:22: es ist nicht mehr vorstellbar was da

00:58:24: okay sich

00:58:25: so ausgedacht wird.

00:58:26: gut dass dann wirklich so kommt in diesen Zeiträumen das steht auf dem anderen Blatt.

00:58:30: aber wenn ich mir das überlege datentransfär Deigt enorm, Taktfrequenzen steigen Da schrillt im Hinterkopf bei mir irgendwie immer das das energie Limit.

00:58:47: Haben die da auch lösungen für beziehungsweise wo soll denn das hingehen?

00:58:51: Ja lösung scheint mir noch nicht so richtig.

00:58:53: also es ist klar dass eben Das was jetzt schon und auch bei habe mv Was also dieses jahr noch starten soll auf den nächsten generation von nvidia und amd das geht nur noch mit Flüssigkeitskühlung.

00:59:08: Also ein Kupfer, typischerweise Kupferkühler sitzt da drauf und wird von Wasser durchströmt.

00:59:17: Damit kann ich das noch kühlen.

00:59:19: Geplant sind also eins, fünf bis zwei Kilowatt pro Beschleuniger, also GPU und RAM.

00:59:26: aber wenn nicht bei diesem HBM-IV Da schon darliegt die Leistungsaufnahme pro Stack bei Vollast, also beim maximalen Zugriff bei bis zu seventy-fünf Watt.

00:59:38: Wenn ich jetzt also vierhundert zwei in drei gigabyte haben wir vorher erwähnt die würden sich auf zwölf stecks verteilen.

00:59:43: das sind also über sieben hundert watt alleine für das ramm.

00:59:47: von diesen eins fünf bis zwei kw Für den gesamtbeschleuniger.

00:59:51: Ja.

00:59:54: Deswegen reden wir ja auch bei gigawatt rechenzentren Jetzt in der größten ordnung wenn also hundert tausend davon In so einem rechen zentrum zusammenarbeiten da geht wasserkühlung noch ab.

01:00:05: hab m five steht in dieser Roadmap Immersionskühlung drin was immer das eisen soll.

01:00:13: Das habe ich nicht ganz verstanden weil in Wasser kann es eigentlich eher nicht sein.

01:00:16: und diese es gab mal eine Weile diesen Trend, dass war zu den heißesten Bitcoins halten.

01:00:23: da hat man dann solche engineered Fluids genommen also spezielle nicht leidende Flüssigkeiten in die man die kompletten Server eingetaucht hat.

01:00:32: Wo dann?

01:00:34: diese Flüssigkeiten waren so eingestellt, dass sie zum Beispiel bei, ich sag mal, zu kochen anfingen.

01:00:41: Also Verdampfungskühlung auf der Ebene des Chips und durch die Verdampfungswärme nimmt es ja wie bei den Heatpack-Kühlern.

01:00:52: Da geht's ja auch darum, dass diese Verdampferung, die Änderungen des Aggregatszustands nimmt extrem viel Energie auf Und dadurch kriege ich sehr viel mehr Energie weg.

01:01:03: Ich glaube nicht so richtig an die Immersionskühlung, weil das Problem ist, dass ja diese Flurklower-Kohlenwasserstoffe, diese PFAS wie sie heute heißen, sehr in Verruf geraten sind.

01:01:15: und diese Engineer Foods von drei M, die waren auch genau von drei m, die im Moment in Belgien und Frankreich sehr unter Beschuss stehen, ich glaube, die haben keine große Lust, die weiter in diesen großen Mengen zu fertigen.

01:01:28: Ich glaub da müssen sich was Neues ausdenken.

01:01:30: Bei HBM-Siebenwart von interner Kühlung die Rede, da gibt es schon seit Jahrzehnten so Projekte mit Mikrokanälen in den Chips.

01:01:40: Da hat IBM also was gehabt

01:01:42: und daran erinnere ich mich.

01:01:43: Genau!

01:01:44: Da kannst du aber natürlich auch im Grunde.

01:01:46: kein gereinigtes Wasser kannst du daneben, aber das sind dann irgendwelche Flüssigkeiten, Spezialflüssigkeiten die dadurch gepresst werden sollen?

01:01:54: Keine Ahnung... Also das sind extreme Leistungsdichten.

01:01:57: Also, wie kann ich mir das vorstellen?

01:01:58: Werden da ähnlich wie bei den Thru-Silicon Vias dann einfach leer Löcher gebohrt und da wird dann keine Ahnung.

01:02:05: Diese Flüssigkeit durchgepumpt?

01:02:07: Ich stelle mir das so vor dass die zum Beispiel so ähnlich wie diesen Interposer zwischen Lagen bauen, die sie mit in das Package einfügen, die dann eben ja Löcher enthalten also Kanälchen, die von der Flüssigkeit durchströmt sind.

01:02:26: Aber wie das genau aussieht, also ich weiß nicht ob es schon einen Chip gibt mit Mikrokanälen der schon im Betrieb ist.

01:02:31: Also das könnte sein wieder bei der optischen Vernetzung.

01:02:35: Das läuft immer vor uns her und irgendwann kommt es dann.

01:02:39: aber ich stelle mir das extrem aufwendig vor weil du ja auch mit sehr sauberen Flüssigkeiten arbeiten musst.

01:02:45: Da ist ein Haar schon ein Problem oder erst Rechtskursion in dem ganzen System

01:02:50: usw.,

01:02:50: wo dann Partikel entstehen.

01:02:54: Keine Ahnung, ob das jemals so wirklich dann kommt.

01:02:57: Aber auf jeden Fall geht es um wahnsinnig hohe Leistungsdichten!

01:03:02: Okay... aber du hattest das eben schon mal ein bisschen angerissen als du beschrieben hast wie viel Leistungsaufnahme der HBM-IV auf den NextGen KI Beschleuniger hat?

01:03:18: Da bleibt für die für den GPU Chip oder die GPU Chips ja gar nicht mehr so viel über, wenn ich dann irgendwie sage Keine Ahnung, bei zwölf Stacks mit seventy fünf Watt das sind ja eigentlich schon eher neunhundert Watt.

01:03:32: Hat man da auch eine Lösung für?

01:03:33: Ich meine, man möchte ja auch eigentlich die KI oder bei der KI auch Dinge berechnen und nicht nur speichern, oder?

01:03:41: Ja naja!

01:03:43: Die Leistung geht erstmal hoch.

01:03:44: also dann haben wir halt zweieinhalb Kilowatt pro Beschleuniger.

01:03:48: Wir reden ja... Also die Firma Rital ein hessischer Hersteller aus Herbon Die haben auch schon

01:03:54: einen hessische Dialekt durch, aber das ist gar kein Hesse.

01:03:57: Ich komme

01:03:57: ja nicht weit davon weg her.

01:03:59: Ich höre das bei mir immer, ich höre den Akzent immer raus.

01:04:04: Die haben ja schon ein Konzept vorgestellt also aus einem einzigen Rack.

01:04:09: Das ist ja ein Standardschrank, die sind in der Tiefe unterschiedlich, sagen wir mal ganz grob zwei Meter hoch so sechzig-achtzig Zentimeter breit.

01:04:18: und naja guten Meter sind hier auch tief Das ist dann schon mehr als ein Kubikmeter, aber das ist schon nicht sehr riesig.

01:04:27: Großer Kleiderschrank, sag ich mal.

01:04:29: Ein Megawatt rauszukühlen aus einem einzigen Schrank.

01:04:34: Also die Leistung geht einfach hoch.

01:04:41: Die Leistungsdichte ist gigantisch bei diesem System

01:04:47: und... Hat man, wie gesagt dann irgendwelche Lösungen um da das zu entlasten oder dass vielleicht ist die Berechnung auch besser zu verteilen?

01:05:00: Also der Witz ist ja... Die Leistungsdichte nimmt zwar zu.

01:05:06: Aber die Effizienz, also darum macht man das ganze Jahr, die Effizienz pro Berechno steigt deutlich.

01:05:15: der Verbrauch pro einzelne Berechnung, der sinkt ja durch diese Maßnahme.

01:05:20: Das ist immer so ein bisschen schwer vorstellbar.

01:05:22: also darum geht es ja, dass man treibt die das zusammenpacken von Daten und berechnern deshalb nach vorne oder versucht eben den Speicher immer dichter zu packen und auch beides immer dicht da zusammenzupacken weil halt der Transport von Daten auch innerhalb eines Servers mittlerweile längst mehr Energie frisst als sie eigentliche Berechnungen der Daten.

01:05:52: Wenn ein Bit physisch als Signaländerung über eine Leitung muss, dann muss ich dazu ja immer Leistungen aufwenden.

01:05:59: Also ich muss irgendwie einen Signal verändern.

01:06:01: Eine andere Methode hat man sich halt bisher nur in Science Fiction ausgedacht.

01:06:07: also ohne Leistung geht es nicht und dadurch kann ich eben leicht was sparen indem ich die Dinge immer enger zusammen packe.

01:06:14: Und daran liegt diese Effizienzsteigerung, dass ich halt diese deswegen gereden werden auch zum Beispiel bei in memory Computing und solche Ideen.

01:06:21: Stimmt

01:06:21: ja genau

01:06:22: um Ramm-und Rechenwerke immer dichter zusammenzubringen.

01:06:25: Und ich meine physisch betrachtet kann man natürlich mittlerweile bei so einem KI Beschleuniger auch irgendwie von In Memory Computing reden weil die Speicherstacks an der Seite doch sehr dicht neben diesem neben diesem KI-Beschleuniger liegen.

01:06:39: und wenn man jetzt alle diese gestapelten Chips nebeneinander legen würde, aber gut das ist ja bei jedem Server so.

01:06:44: Also auf diesem DRAM verschwindet mehr Siliziumfläche als man für die eigentlichen Brechner braucht.

01:06:53: also da kann man dass sich jetzt eine philosophische Frage wir reden über Daten die da verarbeitet werden und riesige Datenmengen müssen halt auch irgendwo sein.

01:07:01: Das ist eine Kooptimierung auch so sagen.

01:07:05: Vielleicht kommen wir auch irgendwann zu einer Grenze, wo man sagt ich brauche so und so viel compute pro bit oder sowas.

01:07:11: also bisher ist es ja eher so dass man sagt früher hat man mal gesagt na für eine virtuelle Maschine also für einen Kern nehme ich immer zwei Gigabyte wenn ich den Server dimensioniere oder irgendwelche solche Faustregeln.

01:07:24: Ich habe keine Ahnung ob das bei KI Modellen wo man da ist Da gibt's bestimmt irgendwelchen Paper die sowas dimensionieren.

01:07:31: Ja ganz sicher.

01:07:33: Aber im Moment ist KI ja auch noch ziemlich im Fluss und da erinnert sich ja auch vieles.

01:07:38: Und viele Paradigmen wechseln noch relativ schnell.

01:07:45: Ich kann mich erinnern, es gab tatsächlich schon mal sowas ähnliches wie in Memory Computing bei Grafikchips bzw.

01:07:51: bei Graficspeicher.

01:07:52: Da gab's in den Neunzigern von Mitsubishi-Dreidere.

01:07:56: Da hat man tatsächlich schon ganz einfache Alus in die Speicherchips gepackt.

01:08:03: Ja, bestimmte Berechnungen nur noch da gemacht.

01:08:05: ist das sowas vielleicht auch eine Option.

01:08:07: Naja es gibt ja dieses Computational Storage ist ja schon angedacht.

01:08:11: denn sag mal so dann müssen wir jetzt einfach nochmal einen Schritt zurückgehen.

01:08:14: also man muss sich hier einmal klar machen heutzutage wenn du davor dein Notebook sitzt und deinen einfach irgendwas eintippst dann sucht ein Browser irgendein gekächtes Bild auf der festplatte und so.

01:08:30: dann muss es naja gut ist sucht nicht nach dem bild auf der festsplatte das guckt in der in einer in der fett nach oder in der file allocation table und so.

01:08:39: aber sagen wir mal so du hast eine suchfunktion was irgendwas durchsucht auf der fast platt in einer datai.

01:08:45: Dann muss ja der computer erstmal diese datei, falls ihr nicht im cash sowieso war von der st holen.

01:08:52: Das heißt, die muss DSD, muss dem Controller sagen, holen wir dann bitte folgende Adressen.

01:08:57: Dann wird das da rausgelutscht und über den PCI Express Interface ins RAM kopiert.

01:09:03: Da greift der Prozessor drauf zu und sucht in den Ramzellen.

01:09:07: Es wäre viel einfacher wenn der Prozessor... Das ist natürlich vom SoftwareStack sehr komplex!

01:09:14: Aber wenn er der SSD sagen könnte, bitte such du mal in dir selber und schick mir die Dateien zurück Nur die Dateien über den Bus, in denen das drin vorkommt.

01:09:25: Dann wären ja viel weniger Transfers nötig.

01:09:29: Das würde Energie sparen und der Prozessor könnte in der Zwischenzeit auch was anderes tun bis die SSD dann gesagt hat hier ich habe übrigens für dich folgende Datei gefunden Und das so ein bisschen geht diese Idee, dass kann man sich auch bei RAM vorstellen.

01:09:43: Dass man eben sagt liefer mir nicht A und B und der Prozessor addiert A plus B sondern man sagt okay dein Ram kann addieren subtrahieren beim multiplizieren kann ich mir mal nicht vorstellen bin ja da bin ich zu doof zu aber ich sage mal jetzt addieren und subtrahiern fangen wir mit den Händen

01:10:00: an.

01:10:01: Genau, die einfachen Sachen und da könnte man ja mit sehr einfachen Rechenwerken zwischen den einzelnen Speicherzellen packen sozusagen oder neben die Schreibleseverstärker.

01:10:10: Und dann sagen es gibt einen zusätzlichen Befehl der bedeutet Ram schickt mir nicht a und b der Reihe nach sondern schick mir die Summe aus A und B. so könnte man einfache oder begrenzten Satz an Algorithmen in die Rammchips packen und würde dadurch sozusagen dem Prozessor von bestimmten Sachen entlastet und dann Transfers vermeiden.

01:10:34: Klar, das ist die Grundidee aber es ist halt die Frage für welche Dinge das nützlich ist.

01:10:40: also wir schreiben da schon seit vielen Jahren drüber und den großen Durchbruch hat meines Wissens noch nicht gegeben bei diesem außer für super spezielle Anwendung.

01:10:52: Okay prima!

01:10:54: Christoph vielen, vielen Dank für das Gespräch.

01:10:56: Wir sind jetzt mal wieder schon deutlich über die Zeit.

01:11:00: Ja leider

01:11:01: ja.

01:11:01: wir können vielleicht noch mal Follow-up machen.

01:11:04: Genau zu wie viel Kontakte passen auf einen Quadratmillimeter?

01:11:07: Genau!

01:11:10: Aber vor allem danken wir Ihnen liebe Zuhörerinnen und Zuhöhrer für Ihr Interesse und wir freuen uns auch über ihr Feedback.

01:11:17: möchten Sie gerne noch ein Follow-Up hören?

01:11:18: oder zu HWM gerne per Mail an bitminusrauschenatct.de.

01:11:24: Und wenn Sie jetzt noch Lust auf mehr Podcasts haben, finden Sie reichlich Auswahl unter heise.de-podcast.

01:11:31: und ganz zum Schluss auch ein herzliches Dankeschön an unseren Producer Ralf!

01:11:36: Und damit tschüss und bis zur nächsten Folge von Betrauschen jeden zweiten Mittwoch früh!

Shownotes

Transkript anzeigen

Neuer Kommentar