- 4 sehenswerte Filme diese Woche im Kino! - März 21, 2023
- „Senna“ Netflix-Formel-1-Legenden-Biopic-Serie: Alles, was wir bisher wissen - März 21, 2023
- „Blood and Honey“ aus den Kinos in Hongkong – The Hollywood Reporter - März 21, 2023
[ad_1]
Als Tachyum auf der Hot Chips 18 das Konzept seines Prodigy Universal Processor vorstellte, sorgte er mit einem Chip, der jeden Code mit einem dynamischen Binärübersetzer ausführen kann, für Furore. Es zeigte eine hohe Leistung bei der Ausführung von nativem und übersetztem Code. Das Unternehmen brauchte eine Weile, um die eigentliche Hardware zu entwickeln, Annahme von Vorbestellungen für Evaluierungskits (öffnet in neuem Tab); Das Unternehmen gibt auch die genauen Spezifikationen seines Prodigy bekannt. Sie sehen sicherlich beeindruckend aus, sind aber mit einer thermischen Designleistung von 950 W pro Chip auch beängstigend.
Beeindruckende Leistung bei beeindruckender Leistung
Jeder Tachyum Prodigy-Prozessor verfügt über bis zu 128 proprietäre Kerne, die mit 16 DDR5-Speicherkanälen (für eine 1.024-Bit-Schnittstelle) gepaart sind und eine Datenübertragungsrate von bis zu 7200 MT/s (und damit eine Bandbreite von bis zu 921,6 GBps) sowie 64 PCIe unterstützen 5,0 Bahnen. Darüber hinaus unterstützt der Chip insgesamt bis zu 8 TB DDR5-Speicher, was dem entspricht, was wir bei kommenden Server-CPUs anderer Hersteller sehen werden. Was die Taktraten betrifft, so ist Tachyums Prodigy auf bis zu 5,7 GHz ausgelegt und ein Produkt der leistungsoptimierten N5P-Prozesstechnologie von TSMC.
In puncto Leistung rechnet Tachyum mit seinem Flaggschiff Prodigy T16128-AIX-Prozessor (öffnet in neuem Tab) bis zu 90 FP64 TFLOPS für HPC sowie bis zu 12 ‚AI PetaFLOPS‘ für Inferenz und Training anzubieten, vermutlich bei Ausführung von nativem Code und Verbrauch von bis zu 950 W (und Flüssigkeitskühlung), gemäß den Spezifikationen veröffentlicht (öffnet in neuem Tab) von der Firma und bei Golem.de (öffnet in neuem Tab). Inzwischen können die Prodigy-Prozessoren von Tachyum in 2-Wege- und 4-Wege-Konfigurationen arbeiten. Um die Zahlen in einen Zusammenhang zu bringen: AMDs Instinct MI250X hat einen Spitzendurchsatz von 96 FP64 TFLOPS für HPC bei etwa 560 W. Im Gegensatz dazu kann Nvidias H100 SXM5 bis zu 20 INT8/FP8 PetaOPS/PetaFLOPS für KI (bis zu 40 PetaOPS/PetaFLOPS mit Sparsity) bei 700 W bereitstellen. Dennoch funktionieren keine Compute-GPUs für allgemeine Workloads. Und genau hier wird es interessant.
Eine neue CPU ist geboren
Prodigy von Tachyum ist ein universeller homogener Prozessor, der bis zu 128 proprietäre 64-Bit-VLIW-Kerne mit zwei 1024-Bit-Vektoreinheiten pro Kern und einer 4096-Bit-Matrixeinheit pro Kern enthält. Darüber hinaus verfügt jeder Kern über einen 64-KB-Befehls-Cache, einen 64-KB-Daten-Cache, einen 1-MB-L2-Cache und kann ungenutzte L2-Caches anderer Kerne als Opfer-L3-Cache verwenden.
Die VLIW-Kerne von Tachyum sind In-Order-Kerne, aber wenn der Compiler die richtigen Optimierungen vornimmt, können sie 4-Wege-Out-of-Order-Probleme unterstützen, so Radoslav Danilak, CEO und Mitbegründer von Tachuym, der mit sprach Golem.de (öffnet in neuem Tab). Er betonte auch erneut, dass die Prodigy-Befehlssatzarchitektur eine sehr hohe Parallelität der Befehlsebene mit Software erreichen kann, die sogenannte Poison Bits verwendet.
Diese Kerne führen nativen Code aus, der für Prodigy (wo die VLIW-Architektur zu glänzen verspricht) geschrieben und explizit optimiert wurde, sowie x86-, Arm- und RISC-V-Binärdateien mit Softwareemulation und ohne Leistungseinbußen, so das Unternehmen. In der Vergangenheit sind alle Versuche, VLIW-Prozessoren dazu zu bringen, x86-Code auszuführen, gescheitert (z. B. Crusoe von Transmeta, Itanium von Intel), hauptsächlich wegen bestimmter CPU-Architekturen und Emulationsineffizienzen. Der Leiter von Tachyum gibt zu, dass die Qemu-Binärübersetzung die Leistung um 30 % bis 40 % verschlechtert (ohne irgendwelche Grundlinien offenzulegen), hofft aber, dass die Leistung in der realen Welt immer noch hoch genug sein wird, um wettbewerbsfähig zu sein. Mittlerweile werden einige Programme bereits nativ unterstützt.
„Wir unterstützen GCC und Linux nativ, und FreeBSD läuft jetzt auch [on Prodigy]“, sagte Danilak. „Apache, MongoDB oder Python laufen bereits nativ, Pytorch- und Tensorflow-Frameworks sind ebenfalls verfügbar.“
Tachyum betont, dass Prodigy kein Beschleuniger ist, sondern eine tatsächliche CPU, die gegen AMD, Intel und andere antreten wird. Um sicherzustellen, dass der Prozessor bei allgemeinen und KI-Arbeitslasten eine wettbewerbsfähige Leistung erbringen kann, hat das Unternehmen seit seiner ersten Einführung im Jahr 2018 zahlreiche Änderungen an seiner Designimplementierung vorgenommen.
„Wir sind ein CPU-Ersatz und kein Unternehmen für KI-Beschleuniger, wir zielen auf Cloud-/Hyperscaler und Telekommunikationsunternehmen ab“, sagte Danilak. „Im Laufe der Zeit planen wir, einige Supercomputer-Kunden zu gewinnen, also haben wir die Breite der Vektor-/MAC-Einheiten von 512 Bit auf 1.024 Bit verdoppelt [which also brings in necessary data paths for the 4,096-bit matrix operations for artificial intelligence].“
Tatsächlich ist ein besonderer Vorteil, den Tachyum’s Prodigy verspricht, die Fähigkeit, eine andere Art von Code auszuführen. Unter der Annahme, dass es eine anständige Leistung bei anständiger Leistung bieten kann, während allgemeine Arbeitslasten (Instanzen) ausgeführt werden, kann es AWS, Microsoft Azure und dergleichen zusätzliche Flexibilität verleihen, da sie in der Lage sein werden, dieselben Maschinen für KI, HPC, und allgemeine Instanzen, falls erforderlich. Es wird natürlich einige tatsächliche Softwarearbeit von verschiedenen Parteien erfordern, aber dies könnte zumindest theoretisch funktionieren.
Immer noch nicht hier
Es sei darauf hingewiesen, dass Tachyum immer noch kein Prodigy-Silizium enthält. Infolgedessen sind alle Leistungsprognosen ein Ergebnis von Simulationen, und das einzige, was das Unternehmen jetzt hat, ist ein FPGA-Prototyp seines Prozessors.
Inzwischen hat das Unternehmen vor kurzem begann Vorbestellungen auf der Prodigy-Evaluierungsplattform von Tachyum entgegenzunehmen, die auf einigen Prodigy-Silizium verwendet wird. Unternehmen müssen Bestellungen vor dem 31. Juli 2022 aufgeben, und die Lieferung der tatsächlichen Hardware erfolgt etwa „sechs bis neun Monate nach Auftragseingang“.
Tachyum erwartet, das erste Prodigy-Silizium (das kleiner als 500 mm² sein könnte) Mitte August herauszukleben, wenn alles wie geplant läuft. Danach erwartet das Unternehmen, die ersten Muster seines Chips etwa im Dezember zu erhalten, und wenn der Chip ordnungsgemäß funktioniert, plant das Unternehmen mit der Bemusterung (dh dem Versand von Evaluierungskits) zu beginnen. Typischerweise dauert das Bring-up von Silizium etwa ein Jahr, nachdem der erste Chip aus der Fabrik zurückgekehrt ist. Dennoch hofft Tachyum, dass sein erster Prozessor wie geplant funktioniert und in der ersten Hälfte des Jahres 2023 mit der eigentlichen Massenproduktion beginnen kann.
Für die Zukunft stellt sich Danilak einen Prodigy 2-Prozessor vor, der mit einem der N3-Knoten von TSMC hergestellt wird und bei gleicher Leistung eine doppelt so hohe Leistung sowie PCIe Gen6-Unterstützung bietet.
[ad_2]