Chip-Roadmaps entfalten sich, kreuz und quer und miteinander verbunden, bei AMD

2022-11-10 11:48:00 By : Mr. Jack Chiang

Nach der Übernahme von ATI im Jahr 2006 und der Reifung seiner diskreten GPUs mit der Instinct-Reihe in den letzten Jahren und den Übernahmen von Xilinx und Pensando hier im Jahr 2022 ist AMD nicht nur eine zweite Quelle für X86-Prozessoren.Heute ist es ohne Frage ein hervorragender Anbieter von High Performance Computing für alle Arten von Workloads und innerhalb aller Ebenen der Rechen- und Verbindungsinfrastruktur im Rechenzentrum.Dies hat das Unternehmen grundlegend verändert, eine Arbeit, die anderthalb Jahrzehnte gedauert hat, aber nur unter der strengen Führung der Geschäftsführerin Lisa Su und mit Unterstützung des sehr talentierten Teams, das sie zusammengestellt hat, bewältigt werden konnte.Zu diesem Team gehörten Mark Papermaster, Chief Technology Officer;David Wang, Senior Vice President of Engineering für die Radeon GPU-Gruppe;Jim Keller, der zu AMD zurückkehrte, um eine Zeit lang auszuhelfen, um die CPU-Designs in Ordnung zu bringen, bevor er dasselbe bei Intel tat und dann auch zu Tenstorrent wechselte;Forrest Norrod und General Manager der Data Center Solutions Group;Rick Bergman, Executive Vice President der Computing and Graphics Group;und jetzt Dan McNamara, General Manager des Servergeschäfts (der früher das Altera FPGA-Geschäft bei Intel leitete) und Victor Peng, Präsident der Adaptive and Embedded Computing Group, die Xilinx seit 2017 leitet und der das GPU-Geschäft bei AMD leitete das Gefolge des Deals, ATI zu kaufen.Jetzt schließen sich Prem Jain und Soni Jiandani, Serienunternehmer, die zusammen mit Mario Mazzola und Luca Cafiero die Nexus-Switch-Familie und die konvergierte UCS-Server-Netzwerkplattform für Cisco Systems entwickelt haben, AMD durch den Pensando-Deal an.Nach fünf langen Jahren der Ausarbeitung seiner Roadmaps für CPUs und GPUs, wobei beide mit aufeinanderfolgenden Generationen architektonisch besser werden, gepaart mit einer absolut konstanten und vorhersehbaren Startkadenz, hat AMD vier Roadmaps für das Rechenzentrum, die sich überschneiden und jeweils verstärken Sonstiges.Und jetzt glauben die meisten Leute AMD, wenn es sagt, dass es etwas tun wird.Nach dem CPU-Shutdown von Opteron und dem Fehlstart von SeaMicro in den frühen 2010er Jahren gibt es immer noch einige Zweifler, aber ehrlich gesagt ist AMDs Bilanz in den letzten fünf Jahren des Versprechens und Lieferns weitaus besser als das, was Intel konnte.Und das ist der Hauptgrund, warum AMD in den kommenden Jahren enorme Umsatz- und Gewinnsteigerungen prognostiziert, wie wir letzte Woche im Zuge des Financial Analyst Day 2022 berichtet haben.Diese Woche werden wir, wie versprochen, über die Roadmaps sprechen, die AMD zu technologischen und finanziellen Höhen führen werden, von denen es im Rechenzentrum immer geträumt hat – und die es in seiner langen Geschichte nie geschafft hat, aufzusteigen.Der Erfolg von AMD in seinem zweiten Durchlauf bei der Datenverarbeitung im Rechenzentrum beginnt mit einem angemessenen Investitionsbetrag und einem engen Fokus darauf, eine wettbewerbsfähige CPU und dann eine wettbewerbsfähige GPU auf den Markt zu bringen, was genügend finanzielle Dynamik aufbaut, um in breitere und tiefere Roadmaps zu investieren Akquisitionen wie Xilinx und Pensando tätigen.(Übrigens glauben wir nicht, dass AMD versuchen wird, andere Unternehmen zu fressen – vielleicht ein junges Netzwerkunternehmen oder eine Software, die zu seinen konvergierten ROCm- und Vitis-Stacks hinzugefügt werden kann.)Wie Papermaster in seiner Keynote auf der FAD 2022-Veranstaltung letzte Woche zeigte, hat das Unternehmen im Zuge seines Wachstums in seine Ingenieure und sein Forschungs- und Entwicklungsbudget investiert:Das F&E-Budget von AMD im Jahr 2022 wird voraussichtlich in etwa so groß sein wie die gesamte Einnahmequelle des Unternehmens im Jahr 2016, nur um Ihnen eine Perspektive zu geben.Das F&E-Budget wurde wirklich erweitert, als AMD die CPU- und GPU-Roadmaps im Jahr 2020 ausarbeitete, um die Exascale-HPC-Deals hier in den Jahren 2022 und 2023 zu beenden, die über 20 Prozent des Umsatzes ausmachen, und die Kombination von AMD und Xilinx pendelt sich auf ein typischeres ein 15 Prozent, plus oder minus und meistens plus, des Umsatzes hier im Jahr 2022. Das ist derselbe Betrag, den Google für Forschung und Entwicklung ausgibt;Facebook gibt mit 21 Prozent der Einnahmen mehr aus, Apple gibt mit rund 7 Prozent weniger aus und Intel, das alle Arten von F&E-Kosten hat, die AMD im Foundry-Geschäft nicht hat und das in vielen Bereichen aufholt, gibt etwa 19 Prozent aus .Zwischen 2019 und 2022 wird die Mitarbeiterzahl im Engineering bei AMD um das 2,3-fache steigen, aber die Ausgaben steigen um das 3,3-fache.Einiges davon ist auf die Ausgaben von Xilinx bei der Ausarbeitung seiner Versal-Geräte der nächsten Generation zurückzuführen, und es besteht eine sehr gute Chance, dass AMD Software-Ingenieure wie verrückt hinzufügt, da es eine einheitliche ROCm-Vitus-Plattform schafft, die dies nicht tut umfasst nur die KI (wie es gemeint ist), bringt aber Bibliotheken in traditionellem HPC und Datenanalyse zum Tragen – genau wie Nvidia es getan hat.Alles, was Nvidia in Bezug auf Bibliotheken und Algorithmen getan hat, muss AMD tun – und es muss es schneller tun.Die Tatsache, dass es von Nvidia gemacht wurde, bedeutet, dass es von AMD gemacht werden kann.Und Intel ist mit seinen OneAPI-Bemühungen und damit der Übernahme von Codeplay vor zwei Wochen nicht besser dran.Als CTO für AMD hat Papermaster dafür gesorgt, dass die Kerne, die von AMD kommen, weiterhin hart an der Architektur und dem Prozess ziehen und das Chiplet-Packaging und die sich ständig verbessernde Infinity-Fabric-Verbindung zwischen diesen Chiplets optimal nutzen, um AMD am Laufen zu halten Preis-/Leistungskurve nach dem Gesetz von Moore.Während Keller zu AMD zurückkehrte, um den Holzpflock in die alten „Piledriver“-Kerne zu stecken, die in den letzten Opteron-Generationen verwendet wurden, und die Architektur des Zen-Kerns (und eines begleitenden „K12“-Arm-Kerns, der herauskommen sollte, fertigte CPUs, die sich einen gemeinsamen „SkyBridge“-Sockel mit Opteron X86-CPUs teilten, die nie das Licht der Welt erblickten).Es gab auch Hybrid-CPU-GPU-Chips, die 2017 auf diesen alten Roadmaps fällig waren, über die wir hier im Eröffnungsjahr von The Next Platform im Jahr 2015 ausführlich gesprochen haben und als wir fragten, ob AMD genug schnell genug auf dem Server tun könnte Schläger.Damals haben wir gesagt, dass AMD seine Roadmap öffnen und Einsätze in den Boden stecken und diese Einsätze dann erfüllen muss.Genau das hat AMD getan, und zum großen Teil dank der Anleitung von Papermaster, der die Zen-Kerne auf Kurs hielt und sich mit einer stetigen Kadenz verbesserte, um Intel einzuholen und zu überholen.Und jetzt hat AMD verschiedene Kerne in Arbeit für jede Generation und für verschiedene Arten von Computern, die unterschiedliche Workloads unterstützen und jedes Prozesspaar von Taiwan Semiconductor Manufacturing Co verwenden, wie Sie aus der von Papermaster gezeigten Zen-Core-Roadmap ersehen können:AMD war ziemlich vage darüber, was einen Xen „c“-Kern von einem normalen Kern unterscheidet, aber was wir wissen, ist, dass es in der „Genua“- und „Bergamo“-Zen-4-Ära einen Cloud-optimierten Prozessor ermöglicht 128 Kerne mit Bergamo im Jahr 2023 im Vergleich zu den 96 Kernen in Genua vor Ende 2022. Wir haben lange gesagt, dass nicht alle Workloads schwere Gleitkomma- oder Matrixarbeit erfordern, und damit Vektoreinheiten und jetzt Matrixeinheiten herausreißen ist für diese sinnvoll, damit Sie mehr, dünnere ganzzahlige Kerne auf einen Würfel stopfen können.Dies gilt insbesondere, wenn diese CPUs zur Beschleunigung an GPUs oder FPGAs angeschlossen werden sollen – die Vektor- und Matrixeinheiten auf der CPU sind in diesem Fall überflüssig.Was wir aus der obigen Tabelle ableiten, ist, dass mit der Genua/Bergamo-Kurbel auf der Epyc-Uhr der Genua-Chip in 5 Nanometer geätzt wird, mit einer Plain-Vanilla-Version und einer Variante mit 3D-V-Cache, was die Leistung und den Preis steigert /Performance bestimmter HPC-Workloads um ein Vielfaches.Wir sind zufällig der Meinung, dass, wenn die Kosten für die Herstellung von 3D-V-Cache sinken, dies Standard sein sollte, da es von Natur aus mehr Chipraum für das Hinzufügen weiterer Kerne eröffnet.Aber AMD nimmt diese Haltung nicht ein, und wir versuchen, es vom Gegenteil zu überzeugen, insbesondere nachdem wir einen Artikel aus dem RIKEN Lab in Japan darüber gelesen haben, wie massive gestapelte L2-Caches die Leistung des A64FX-Prozessors bis 2028 um das 10-fache steigern könnten. Mit Bergamo ist es so Es sieht so aus, als würde AMD zu einem verfeinerten 4-Nanometer-Prozess von TSMC wechseln und einige der Eingeweide aus dem Genoa herausreißen, um mehr Kerne auf den Chip zu bekommen.Wir denken, dass es ein größerer Würfel sein wird, und möglicherweise sind seine Vektoren weg.Wir werden sehen.Aber wie Sie sehen können, wird es bei der Zen 5-Kernfamilie denselben Unterschied geben – zwei Kugeln Plain Vanilla mit 4-Nanometer-Prozessen, zwei Kugeln Plain Vanilla mit 3D-V-Cache darüber mit 3-Nanometer-Prozessen und drei Schaufeln von Schokoladenstückchen mit 3-Nanometer-Prozessen – verwendet in der „Turin“-Familie von Prozessoren, die 2024 kommen wird. (Wir haben nicht alle Codenamen, aber es wird wahrscheinlich Turin, Turin-X und etwas anderes aus Italien geben nicht „Pisa“, denn das ist ein technisches Versagen, aber PR-Genie, müssen Sie zugeben.)Angesichts der relativen Positionen von AMD und Intel bei PC- und Server-CPUs in diesen Tagen kann man Papermaster nicht vorwerfen, dass er für den Zen 3-Kern, der in den „Milan“ Epyc 7003-Prozessoren verwendet wird, eine Art Siegesrunde gefahren ist:Der „Golden Cove“-Kern wird im kommenden „Sapphire Rapids“-Xeon-SP-Prozessor verwendet, der mit Intels verfeinertem 10-Nanometer-SuperFIN-Prozess geätzt ist, der jetzt als Intel 7 bekannt ist, sodass dieser Power-Performance-Area- oder PPA-Vergleich für das Rechenzentrum geeignet ist als auch für den Desktop.Normalisiert für einen Chip mit 8 Kernen und 16 Threads, der bei 3,9 GHz läuft, hat der Kern des Zen 3 45 Prozent weniger Fläche, verbraucht 45 Prozent weniger Strom und bietet etwas mehr Leistung, was einer um 78 Prozent besseren Leistung pro Watt entspricht.(AMD mischt Daten für 8-Kern- und 16-Kern-Chips in der obigen Tabelle, was ärgerlich ist.)Die Lücke wird mit dem Zen 4-Kern anscheinend noch größer:Die ursprünglichen Zen 4-Kerne, die im Genoa verwendet werden, und vermutlich die Genoa-X-Prozessoren werden eine 8- bis 10-prozentige Steigerung der Anweisungen pro Takt erhalten und dank der Umstellung auf die 5-Nanometer-Prozesse bei TSMC mehr als sehen 15 Prozent Steigerung der Single-Thread-Leistung laut Papermaster.Die Zen 4-Kerne werden sowohl AVX-512-Vektoren als auch „ISA-Erweiterungen für KI“ unterstützen, was wahrscheinlich ein Matrix-Mathematik-Overlay für die AVX-512-Mathematikeinheiten sowie eine 125-prozentige Erhöhung der Speicherbandbreite pro Kern bedeutet.Das Netto-Netto ist, dass der Zen 4-Kern mehr als 35 Prozent mehr Leistung und mehr als 25 Prozent bessere Leistung pro Watt auf einem 16-Kern-Komplex haben wird, was bedeuten sollte, dass Genoa einen 2,3-fachen Vorteil bei der Leistung pro Watt auf 16 Kernen hat im Vergleich zu Sapphire Rapids bei gleicher Taktfrequenz und einem etwas mehr als 2-fachen Leistungsvorteil auf einem 8-Kern-Komplex bei gleicher 3,9-GHz-Basislinie.Es bedeutet auch, dass Genua etwa 8 Prozent heißer läuft als Mailand, wenn der Stromverbrauch und die Wärmeableitung der Epyc-Chips dem gleichen Muster folgen wie die Desktop-Ryzen-Chips, die Papermaster in seinem Vergleich verwendet hat.(Wieder bei konstanten Uhren.)Sapphire Rapids wird keinen guten Tag haben, wenn Genoa startet;Intel muss „Granite Rapids“ wirklich so schnell wie möglich in den Markt bringen.Bisher ist Intel seit der Einführung der „Rome“ Epyc 7002 im Jahr 2019 einen Schritt hinter AMD zurückgeblieben.Mit Zen 5-Kernen gibt es noch eine weitere „grundlegende“ Mikroarchitektur, die ein breiteres Befehlsproblem und eine neue Pipeline am Frontend hat, um sie effizienter zu machen und eine höhere Leistung zu liefern.Der Zen 5-Kern wird auch Optimierungen für KI haben, die noch detailliert werden müssen, aber es wäre nicht überraschend, einige der KI-Engines aus den Xilinx Versal FPGA-Rechenkomplexen zu sehen, bei denen es sich um hartcodierte Arrays von DSPs für Inferenz handelt. den Epyc-Chips hinzugefügt, so wie IBM und Intel ihre jeweiligen „Cirrus“ Power10- und „Sapphire Rapids“-Xeon-SP-Prozessoren mit Matrixeinheiten ausstatten.In seiner Präsentation zog McNamara die Epyc-Server-CPU-Roadmap heraus, die offensichtlich mit der von Papermaster gezeigten Zen-Core-Roadmap korreliert.Schau mal:Auf diesen Roadmaps tauchen Zen 4-Kerne zunächst Ende 2022 in Genua und dann in Genoa-X, Bergamo auf, und nun ein neuer Chip, der sich an Telcos und andere Dienstleister namens „Siena“ im Jahr 2023 richtet. Die Familie Turin kommt 2024 mit Zen 5-Kerne, und McNamara sagte, er erwarte die volle Bandbreite an CPU-Typen für allgemeine Zwecke, Cloud-Native, Technik und Telekommunikation.(Auf der Roadmap war einfach nicht genug Platz, um sie alle zu zeigen.)Der Genoa-Chip mit 96 Zen 4-Kernen wird über 12 DDR5-Speicherkanäle und Unterstützung für PCI-Express 5.0-Peripheriegeräte und das CXL-Overlay verfügen, um den Beschleunigerspeicher über den PCI-Bus mit dem Systemspeicher zu verbinden.Der Genoa-Prozessor verfügt sowohl auf DDR5- als auch auf jedem CXL-angeschlossenen Speicher über eine Speicherverschlüsselung und hat eine um mehr als 75 Prozent höhere Leistung auf Java im Vergleich zum Milan Epyc 7003 mit 64 Kernen.(Das sind 50 Prozent von mehr Kernen, 8 bis 10 Prozent von höherem IPC und vielleicht einige Takterhöhungen und andere architektonische Änderungen, um die verbleibenden 15 Prozent oder mehr Leistung zu erhalten.)Die Variante Bergamo Epyc 7004 mit den Zen-4c-Kernen kommt im ersten Halbjahr 2023 mit 128 Kernen, die ISA-kompatibel zu den Zen-4-Kernen sind und die gleichen Dutzend Speicherkanäle und das gleiche PCI-Express 5.0 (und vermutlich CXL) haben. Unterstützung.Wir hatten uns gefragt, ob AMD simultanes Multithreading (SMT) entfernen würde, um eine bessere Sicherheit im Kern und eine deterministischere Leistung zu bieten (wie Ampere Computing sagt, dass es mit seiner Altra Arm-Server-CPU-Reihe liefert), aber McNamaras Präsentation zeigt zwei Threads pro Kern, also streich das.AMD wird Genoa-X ausliefern – das X steht vermutlich für „extreme Leistung“, aber vielleicht wäre es besser gewesen, es Genoa-V zu nennen, damit wir uns daran erinnern können, welches den 3D-V-Cache hat – irgendwann im Jahr 2023, aber es sagt nicht wann .Dasselbe gilt für Siena, eine Zen 4-CPU mit bis zu 64 Kernen, die jedoch so optimiert ist, dass sie die beste Leistung pro Watt und die niedrigsten Kosten liefert und sich für Edge- und Telekommunikationsanwendungen eignet.Das hört sich so an, als hätte es einige Blindgänger-Speichercontroller und PCI-Express-Controller, und AMD lässt diese Chips nicht verschwenden.AMD verbrachte viel Zeit damit, die „Aldebaran“ Instinct MI200-Serie mit dem Nvidia „Ampere“ A100 GPU-Beschleuniger zu vergleichen und erwähnte nicht die Tatsache, dass sein GPU-Rivale Nvidia die „Hopper“ H100-Kicker dazu enthüllt hat, die die MI200 übertreffen auf einige Schlüsselkennzahlen.Wir werden in vollständigere Vergleiche einsteigen, wenn die H100s später in diesem Jahr ausgeliefert und preislich festgelegt werden.Das Interessante an der CDNA-Architektur für Rechenzentrums-GPUs ist die Enthüllung, dass der Instinct MI300 im Jahr 2023 kommt und dass es sich um eine beschleunigte Recheneinheit oder APU handeln wird, bei der es sich um ein Gerät handelt, das eine CPU und eine GPU auf einem einzigen Gerät kombiniert – wie die für 2017 erwartete, die aber nie auf den Markt kam.Hier ist die CDNA-Roadmap, die das Timing zeigt:Hier ist die Instinct-Roadmap:Zugegeben, es sagt nicht viel aus.AMD hat seit den Spitzentagen der Opteron-CPU im Jahr 2006 von APUs geträumt und bereits 2010 mit der Einführung seiner ersten APUs für PCs begonnen. Darauf folgten benutzerdefinierte APUs in Sony PlayStation 4 und 5 sowie Microsoft Xbox XS Spielekonsolen der Serie, und es gab sogar ein paar Opteron-APUs – den X2100 im Jahr 2013 und den X3000 im Jahr 2017. Und während die AMD-Roadmaps eine aggressive Weiterentwicklung seiner unabhängigen CPUs, GPUs, DPUs und FPGAs fordern, ist mindestens eine Variante der Die zukünftige Instinct MI300-GPU wird tatsächlich eine APU sein.Es fällt uns schwer zu glauben, dass es in der MI300-Serie kein freistehendes Paket mit vier GPUs für diejenigen Kunden geben wird, die eine diskrete CPU in Verbindung mit einer diskreten GPU wünschen.Es ging das Gerücht um, dass der MI300 vier GPU-Chiplets in ein einziges Paket packen würde, was mindestens 2x mehr Durchsatz als der MI250X bei Gleitkommazahlen mit doppelter Genauigkeit bietet.Aber darüber sprach Wang in seiner GPU-Präsentation nicht.Aber er sprach über die CDNA 3-Architektur und wir vermuten, dass die Basis der Instinct MI300 ist.Hier ist das Diagramm zur CDNA 3-Architektur:Dies ist eine wichtige Unterscheidung, die durch die Schaffung einer APU ermöglicht wird.Mit der heutigen Kombination von Epyc-CPUs und Instinct-GPUs ist der Speicher für diese beiden Geräte unterschiedlich und sie sind durch Infinity Fabric 3.0-Hochgeschwindigkeitsverbindungen miteinander verbunden, sodass die Caches eine Querverbindung herstellen und einen kohärenten Speicherzugriff über diese beiden Geräte ermöglichen können.Es ist wie eine NUMA-Verbindung zwischen CPUs, nur dass es unterschiedliche Arten von Speicher und eine relativ hohe Latenz zwischen den beiden Geräten gibt.(Es ist jedoch immer noch viel weniger als von einer CPU zu einer GPU über den PCI-Express-Bus zu reichen.)Bei der CDNA 3-Architektur sind CPU und GPU Chiplets, die auf demselben Paket implementiert sind und durch Infinity 4.0-Links miteinander verbunden sind, die einen einheitlichen Speicherzugriff haben.Das bedeutet, dass beide Geräte gleichzeitig auf denselben Speicher auf dem Gerät zugreifen können – mit entsprechenden Kontrollen darüber, welches Gerät das Schreiben von Daten in den Speicher steuert, ähnlich wie dies bei NUMA-Geräten der Fall ist.Wichtig ist, dass keine Daten zwischen der CPU und der GPU kopiert werden, damit sie ihre Arbeit erledigen können – beide erledigen ihre Arbeit im selben physischen Speicher.Die Vorschübe und Geschwindigkeiten der CDNA 3-GPU des MI300-Pakets wurden nicht bekannt gegeben, aber Wang sagte, dass das Gerät beim KI-Training eine mehr als 8-mal höhere Leistung als das MI250X haben und mehr als das 5-fache der „KI-Leistung/Watt“ bieten würde. was auch immer das heißt konkret.Das könnte einfach die Verdoppelung der GPU-Kerne plus einen Wechsel zur FP8-Gleitkommaverarbeitung bedeuten, die nur bei bestimmten Arten von KI-Training funktioniert.(Nvidia unterstützt FP8 in der Hopper-GPU, ebenso Intels benutzerdefinierter Gaudi2-Matrix-Mathematik-ASIC für das KI-Training.) Das Instinct MI300-Paket enthält auch das Epyc 7004-Chiplet mit den Zen 4-Kernen, und es sieht sowohl nach der CPU als auch nach dem aus Die GPU wird auf einem Infinity Cache L3-Cache-Speicher sitzen, der bereits in den Radeon Pro RDNA 2-Grafik-GPUs verwendet wurde.Die MI300-Chiplets werden in TSMC-5-Nanometer-Prozessen geätzt und nutzen 3D-Packaging-Techniken.Die 2.5D Elevated Fanout Bridge-Verbindung, die in den Aldebaran-GPUs verwendet wurde, um diese Rechenmaschinen mit dem HBM-Speicher zu verbinden, wird vermutlich verwendet, um die CPUs und die GPUs mit dem HBM3-Speicher auf dem Paket zu verbinden;Es ist nicht klar, dass die 3D-Hybrid-Bonding-Technik, die in der Milan-X-Server-CPU verwendet wird, um ihren L3-Cache (3D-V-Cache) zu verdreifachen, für den Infinity-Cache verwendet wird.Wie wir oben gesagt haben: Nicht jeder wird ein statisches Verhältnis von CPU- zu GPU-Rechenleistung wollen, also müssen wir davon ausgehen, dass es einen Instinct MI350 und MI350X geben wird, möglicherweise mit viel mehr GPU-Chiplets, aber basierend auf dem KI-Training Verhältnissen sieht es so aus, als würde AMD vier GPUs in einem Paket mit 64 CPU-Kernen bekommen.Das wäre im Grunde ein Knoten des „Frontier“-Supercomputers auf einem einzigen Paket – keine leichte Aufgabe, wenn sich herausstellt, dass es wahr ist, und wahrscheinlich heiß genug, um darauf Hamburger und Hot Dogs zu kochen.Bleiben noch die FPGA- und KI-Engine-Rechenstrukturen von Xilinx und die eingebetteten Produktlinien, die für Edge-, Industrie- und andere Anwendungsfälle wichtig sind, bei denen die Rechenanforderungen anders sind als im Kernrechenzentrum.Hier ist die Roadmap, die Peng für die beiden Geschäftsbereiche enthüllt hat, die er jetzt bei AMD leitet:Das Interessante hier ist, dass AMD den 5-Nanometer-Knoten im Jahr 2024 mit den Versal-FPGA-Kickern überspringt, von denen ohnehin nicht erwartet wurde, dass sie dieses Jahr auf den Markt kommen, da sie die Produktion vieler Versal-SKUs noch hochfahren.Daher wird bei TSMC für die Versal-Kicker im Jahr 2025 natürlich auf 3-Nanometer-Prozesse umgestellt. Und das wird eine schrittweise Einführung sein, wie es bei den „Everest“-Versal-Geräten der Fall war, die bereits im Oktober 2018 enthüllt wurden und die es immer noch haben noch einige Lebensjahre in ihnen.(Angesichts der Art der Kunden und der Programmierbarkeit von FPGAs müssen sie nicht den gleichen schnellen Takt wie CPUs haben und brauchen sogar länger als eine neue Generation von GPUs, um auf den Markt zu kommen.)AMD und Xilinx haben nicht viel darüber gesprochen, wie die Xilinx-Technologie in die AMD-Technologie integriert werden würde, worüber wir bereits im Februar spekulierten, als der Deal abgeschlossen wurde.Wir wissen, dass der Plan darin besteht, die KI-Engines für die Ryzen-Client-CPUs zu sein, um die Inferenz zu beschleunigen, und wir wissen jetzt, dass die Epyc-Familie schließlich einige Teile der „XDNA-Architektur“ von Xilinx auf sie gestreut bekommen wird.Schau mal:Wir würden gerne herausfinden, wie programmierbare Logik zu Epyc-CPUs sowie zu den fest codierten AI-Engines-DSP-Engines für Matrixmathematik hinzugefügt werden könnte.Und wir würden auch gerne wissen, wie Unternehmen herausfinden sollen, wann sie gemeinsam verpackte Chiplet-Engines verschiedener Architekturen benötigen und wann diskrete CPUs, GPUs, FPGAs und KI-Engines geeignet sind.Und warum nicht einfach ein KI-Engine-Beschleuniger ganz allein, ohne FPGA-programmierbare Struktur, als diskretes Gerät?Wenn Sie Kunden alle Optionen geben wollen, dann machen Sie alle Optionen.Nach der gleichen Logik sollte es FPGAs geben, die keine Arm-Cores – oder überhaupt irgendwelche Cores – haben, sondern nur einen programmierbaren Logikblock, der über Infinity Fabric-Links und später über Infinity Fabric-Links mit CPUs und GPUs verbunden werden kann das Universal Chiplet Interconnect (UCI-Express)-Protokoll, das Intel versucht, zu einem Standard innerhalb des Pakets zu machen, wie es mit CXL über verschiedene Speicher auf CPUs und Beschleunigern verfügt.Als nächstes werfen wir einen Blick auf den einheitlichen AMD-Xilinx-Software-Stack, der zusammenkommt, und überprüfen auch, was das Unternehmen über seine Bestrebungen in der Rechenzentrumsvernetzung gesagt hat.Mit Highlights, Analysen und Geschichten aus der Woche direkt von uns in Ihren Posteingang, ohne dazwischen.Abonniere jetztEs war absolut unvermeidlich, dass China versuchen würde, seine eigenen GPU-Rechenmaschinen zu entwickeln.Es war nie selbstverständlich, dass es in nur drei Jahren gelingen würde.Aber mit der Einführung der BR-Produktserie von Biren Technology gibt es endlich eine glaubwürdige selbst entwickelte GPU, die von …Alle großen Technologen leben in der Zukunft.Sie bringen es uns mit Hilfe unzähliger Ingenieure zurück, die die Spezifikationen aus ihrer Vision ableiten und Ideen in die Realität und letztendlich in Geld verwandeln, um den Prozess erneut zu wiederholen.Nvidia befand sich in einem solchen positiven Kreislauf …Wir haben hier bei The Next Platform einen schlimmen Fall von Siliziumerschütterungen und einem sich verschlimmernden Eisenmangel, aber die gute Nachricht ist, dass neue CPU-Prozessoren von AMD und Intel unmittelbar bevorstehen und weitere Prozessoren später in diesem Jahr von IBM und Ampere Computing erwartet werden , zu.Dort …„Die ursprünglichen Zen 4-Kerne, die im Genoa und vermutlich den Genoa-X-Prozessoren verwendet werden, werden eine 8- bis 10-prozentige Steigerung der Anweisungen pro Takt erhalten und dank der Umstellung auf die 5-Nanometer-Prozesse bei TSMC eine 15 erreichen Prozent Steigerung der Single-Thread-Leistung laut Papermaster.“Sehen Sie sich die Folie beim AMD Finical Analysts Day an und Sie werden das „>“-Symbol vor den 15 % sehen, sodass „Größer als 15 %“ angezeigt wird.Aber wenn AMD seinen von Jim Keller/K12 Team entworfenen Project K12 Custom ARM-Kern nicht entstaubt, dann erwarten Sie, dass AMD nach einer Weile von Qualcomm und seinen Nuvia Custom ARM-Kerningenieuren aus dem Markt für tragbare Spielgeräte verdrängt wird und Nuvia gegründet wurde von ehemaligen SOC-Ingenieuren der Apple A/M-Serie, also hat AMD besser das Verilog für K12 beibehalten und sich auf die Zukunft des Handheld-Gaming-Marktes vorbereitet, wo AMD derzeit viele x86-basierte APUs verkauft hat.Aber achten Sie auf ARM dort am oberen Ende von Qualcomm, wenn sie tatsächlich einen superskalaren benutzerdefinierten ARM-Kern mit sehr breiter Ordnung einsetzen können, der dem A14/Firestorm-Kern von Apple ähnelt, und die Ingenieure von Nuvia haben dort einige Erfahrung in diesem Prozess.Und ARM im Servermarkt verlangsamt sich nicht, also sollte AMD besser jede x86-Duopol-Fixierung aufgeben und zur Entwicklung für ARM oder sogar RISC-V zurückkehren, und was Handheld-Spiele betrifft, haben ARM-Prozessoren die bessere Akkulaufzeit und selbst wenn AMD hat dort etwas Markt für x86 AMD muss den Göttern danken, dass Apple keinen Handheld wie das Steam Deck mit Apples A14- oder A15-Prozessor im Inneren auf den Markt gebracht hat.Achten Sie auf Qualcomm im Laptop-Bereich und ARM-basierte Prozessoren dort irgendwann im Jahr 2023/später!Yup auf dem größeren Zeichen.Danke für den Fang.„Als Nächstes werfen wir einen Blick auf den einheitlichen AMD-Xilinx-Software-Stack, der zusammenkommt, und überprüfen auch, was das Unternehmen über seine Bestrebungen in der Rechenzentrumsvernetzung gesagt hat.“Ich habe diesen Artikel noch nicht bemerkt, ist er auf der Website verfügbar?https://www.nextplatform.com/2022/07/08/now-comes-the-hard-part-amd-software/Deine Email-Adresse wird nicht veröffentlicht.Diese Seite verwendet Akismet, um Spam zu reduzieren.Erfahren Sie, wie Ihre Kommentardaten verarbeitet werden.The Next Platform wird von Stackhouse Publishing Inc in Zusammenarbeit mit The Register, der führenden britischen Technologiepublikation, herausgegeben.Es bietet eine umfassende Abdeckung von High-End-Computing in großen Unternehmen, Supercomputing-Zentren, Hyperscale-Rechenzentren und Public Clouds.Weiterlesen…Mit Highlights, Analysen und Geschichten aus der Woche direkt von uns in Ihren Posteingang, ohne dazwischen.Abonniere jetztAlle Inhalte sind urheberrechtlich geschützt von The Next Platform