Unsere Schwesterpublikation TecChannel hat AMDs brandneue Opteron-Server-CPUs „Shanghai“ mit 45-nm-Technologie getestet. Der Test klärt, ob höhere Taktfrequenzen, schnellerer Speicher und 6 MByte L3-Cache Geschwindigkeit und Energieeffizienz erhöhen können. Die Ergebnisse verblüffen.
Von Christian Vilsbeck, TecChannel
Vor gut einem Jahr stellte AMD seinen ersten Quad-Core-Opteron-Prozessors „Barcelona“ vor. Der überfällige und holprige Start der K10-Architektur wurde durch den TLB-Bug überschattet, wodurch der Hersteller erst im April 2008 fehlerfreie CPUs im so genannten "B3-Stepping" ausliefern konnte.
Für Intels Xeon-Prozessoren waren die AMD-CPUs trotzdem keine große Konkurrenz bei beliebten Servern mit zwei Sockeln. Die 45-nm-Xeons liegen in Geschwindigkeit und Energieeffizienz gegenüber den 65-nm-Barcelonas überwiegend vorne. Und zum Jahreswechsel 2008/2009 soll bereits die nächste Xeon-Generation mit "Nehalem"-Architektur auf den Markt kommen.
Höchste Zeit also für AMD, die nächste Opteron-Generation mit Code-Namen „Shanghai“ vorzustellen. Erstmals baut AMD die Vierkern-Server-Prozessoren in 45-nm-Technologie. Damit soll nicht nur die Energieeffizienz deutlich steigen, auch die Taktfrequenzen gehen endlich nach oben.
So arbeitet das im TecChannel-Testlabor untersuchte neue Topmodell "Opteron 2384" für Zwei-Sockel-Server mit 2,7 GHz Taktfrequenz. Viel wichtiger ist jedoch die von AMD maximal spezifizierte Energieaufnahme von nur 75 Watt. Neben der geringeren Strukturbreite sorgt die Smart-Fetch-Technologie – siehe nächste Seite – für gemäßigten Energiekonsum. Der bisher schnellste, im 65-nm-Verfahren produzierte Opteron 2360 SE mit 2,5 GHz Taktfrequenz ist noch mit 105 Watt spezifiziert.
Doch die Shanghai-Opterons bieten noch weitere Verbesserungen. So erweitert AMD den L3-Cache von 2 auf 6 MByte. Hier sollte je nach Anwendung ein merklicher Performance-Sprung möglich sein, denn bei der Cache-Größe liegt Intel bislang vorn. Wird doch vermehrt auf den Speicher zurückgegriffen, so steuert der 45-nm-Opteron nun gepufferte DDR2-DIMMs mit 800 statt nur 667 MHz Taktfrequenz an.
Wichtig laut AMD bleibt die Kompatibilität der neuen Opterons zu den bisherigen Sockel-F-Plattformen. Ein simples BIOS-Update genüge für den Einsatz der 45-nm-Opterons.
Im TecChannel-Testlabor vergleichen wir den neuen Opteron 2384 mit dem schnellsten 75-Watt-Vorgängermodell Opteron 2356 im identischen Zwei-Sockel-Server. Außerdem muss sich AMDs erster 45-nm-Prozessor gegen Intels Xeon-5400-Prozessoren beweisen. Wir überprüfen die Performance der CPUs bei Integer- und Floating-Point-Anwendungen wie Verschlüsselung, Rendering und Simulation. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Zwei-Sockel-Systeme. Die Ergebnisse sprechen für sich.
Details zum 45-nm-Opteron „Shanghai“
AMD vereint beim Opteron „Shanghai“ weiterhin alle vier Kerne auf einem Siliziumplättchen. Auf einer Die-Fläche von 258 mm² breiten sich zirka 758 Millionen Transistoren aus. Wie beim 65-nm-Vorgänger Opteron Barcelona steht bei Shanghai-CPUs jedem Kern ein dedizierter 512-KByte-L2-Cache zur Verfügung. Das Fassungsvermögen der für alle Kerne gemeinsamen dritten Pufferstufe verdreifachte AMD allerdings von 2 auf 6 MByte.
Zum Start des „Shanghai“ sind die Modelle Opteron 2376 (2,3 GHz), 2378 (2,4 GHz), 2380 (2,5 GHz), 2382 (2,6 GHz) und 2384 (2,7 GHz) für Zwei-Sockel-Systeme verfügbar. Für Vier- und Acht-Sockel-Systeme bietet AMD den Opteron 8378 (2,4 GHz), 8380 (2,5 GHz), 8382 (2,6 GHz) und 8384 (2,7 GHz) an. AMD spezifiziert die vierkernigen Opteron-Modelle mit einer maximalen Energieaufnahme von 75 Watt. Im ersten Quartal 2009 sollen laut AMD besonders stromsparende Opteron-HE-Modelle mit 55 Watt und High-Performance-Varianten Opteron SE mit 105 Watt folgen.
Für den geringeren Energiebedarf sorgt beim Opteron „Shanghai“ neben der 45-nm-Strukturbreite die Smart-Fetch-Technologie. Schaltet der Prozessor einen Kern ab, so wird der Inhalt des L1- und L2-Cache in den Shared-L3-Cache geladen. Bei Zugriffen anderer aktiver Cores auf die Caches des „schlafenden“ Kerns muss dieser nicht „aufgeweckt“ werden. Diese neue Smart-Fetch-Technologie soll laut AMD bis zu 15 Watt im typischen Betrieb einsparen.
Die neuen 45-nm-Opterons lassen sich laut AMD in bestehenden Socket-F-Systemen einsetzen; einzig ein BIOS-Update sei notwendig, sagt der Hesteller. Durch die unveränderte Socket-F-Infrastruktur setzt der Shanghai-Opteron weiterhin auf gepufferte DDR2-Speichermodule – allerdings mit Geschwindigkeiten bis 800 MHz. Der HyperTransport-Bus arbeitet wie bei den bisherigen Quad-Core-Opterons mit 1 GHz Taktfrequenz.
Modelle mit schnellerem HT-3.0-Interface sollen im ersten Halbjahr 2009 rechtzeitig zur Vorstellung der neuen Fiorano-Plattform folgen.
Testsysteme: Supermicro-Server für AMD und Intel
AMDs Opteron 2384 „Shanghai“ und 2356 „Barcelona“ testen wir in dem identischen 2-Sockel-Server Supermicro A+ 2021M-UR+B. Der 2U-Server verwendet als Mainboard das Supermicro H8DMU+ mit NVIDIA MCP55Pro-Chipsatz. Jedem Prozessor stehen vier gepufferte 2-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Opteron-Server somit über 16 GByte Arbeitsspeicher.
Um die Performance und die Energieeffizienz der Opteron-Prozessoren bestmöglich mit den Xeon-CPUs vergleichen zu können, verwenden wir für die Intel-CPUs den bauähnlichen SuperServer 6025W-NTR+B von Supermicro. Als Mainboard verwendet der 2U-Server ein Supermicro X7DWN+ mit Seaburg-Chipsatz. Vier FB-DIMM-Channels steuern insgesamt acht 2-GByte-Module vom Typ Nanya NT2GT72U4NB1BD-2C an. Die FB-DIMMs arbeiten bei der FSB1600-CPU Xeon E5472 mit DDR2-800-SDRAMs mit einem 5-5-5-Timing. Bei den FSB1333-Xeons steuert der Chipsatz den Speicher automatisch mit einer Geschwindigkeit von 667 MHz bei CL5 an.
Um insbesondere für die Energiemessungen gleiche Vorraussetzungen für den AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten von Samsung. Somit lassen sich bestmögliche Vergleiche zwischen den Prozessoren ziehen.
Der AMD-Supermicro-2U-Server lässt durch sein Beta-BIOS trotz Shanghai-Support allerdings keinen stabilen Betrieb des Opteron 2384 mit DDR2-800-Speicher zu. Alle Energieeffizienzmessungen müssen wir deshalb bei der neuen 45-nm-CPU mit DDR2-667-Geschwindigkeit (CL5) durchführen – wie beim Opteron 2356. Für reine Performance-Benchmarks testen wir den Opteron 2384 deshalb zusätzlich in dem Zwei-Sockel-Server Supermicro A+ 1021M-T2+B mit DDR2-800-Geschwindigkeit (CL6). Das verbaute Mainboard Supermicro H8DME-2 bietet einen stabilen Betrieb des Shanghai mit 800 MHz Speichertakt. Der 1U-Server besitzt allerdings eine andere Storage-/Netzteilausstattung und lässt sich deshalb für Energiemessungen weniger gut mit dem Intel-Server vergleichen. Die Performance des Opteron ist in beiden AMD-Systemen bei gleicher Speichergeschwindigkeit allerdings identisch.
Als Betriebssystem setzen wir Windows Server 2008 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 5 in der 64-Bit-Version.
Singlethread Integer: SPECint_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Integer-Berechnungen von SPECint_base2006 arbeitet die Benchmark-Suite CPU2006 singlethreaded und nutzt die Vorteile mehrerer Kerne oder CPUs nicht aus. Die ermittelten Werte gelten als Indiz für die Performance der Prozessoren bei Ganzzahlenberechnungen.
Multitask Integer: SPECint_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei den Zwei-Sockel-Servern mit Quad-Core-Prozessoren arbeiten acht Kopien parallel.
Singlethread Floating Point: SPECfp_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Floating-Point-Berechnungen von SPECfp_base2006 arbeitet die Benchmark-Suite CPU2006 singlethreaded und nutzt die Vorteile mehrerer Kerne oder CPUs nicht aus. Die ermittelten Werte gelten als Indiz für die Performance der Prozessoren bei Fließkommaberechnungen.
Intels 10.1-Compiler bieten mit dem Switch –QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung.
Multitask Floating Point: SPECfp_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei den Zwei-Sockel-Servern mit Quad-Core-Prozessoren arbeiten acht Kopien parallel.
Intels 10.1-Compiler bieten mit dem Switch –QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Verion 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung.
SPECjvm2008: Java Virtual Machine Performance
Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungssoftware zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett-Packard, IBM, Intel und Sun entwickelt.
Für die Performance des Systems in einer Java Virtual Machine zeigen sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.
SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.
Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:
SPECpower: Maximale Java-Performance
SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.
SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten Vier-Sockel-Systemen sind zwei JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei Zwei-Sockel-Systemen die besten Ergebnisse.
Bei diesem Test sind die Energiesparoptionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.
SPECpower: Energieeffizienz Performance/Watt
Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von zehn bis 100 Prozent gemessenen werden.
Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008 Enterprise x64 mit dem Energieschema „Ausbalanciert“. SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei dem SPECpower-Benchmark aktiv:
Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv.
Im folgenden Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme:
SPECpower: Kurven Energieeffizienz
Der Energieeffizienz-Benchmark SPECpower_ssj2008 ermittelt für jeden Lastzustand von zehn bis 100 Prozent die Performance/Watt-Werte der Systeme. Hier zeigt sich: Je höher die Prozessorauslastung, desto besser die Energieeffizienz des gesamten Systems.
In den Diagrammen wird die Performance/Watt von zehn bis 100 Prozent in den roten Balken dargestellt. Die blaue Kurve zeigt zusätzlich den Energieverbrauch des Systems bei der entsprechenden Prozessorauslastung an. Links in den Bildern sehen Sie jeweils die Ergebnisse mit aktivem Prozessor-Powermanagement, rechts bei inaktivem SpeedStep (Intel) oder PowerNow! (AMD):
SPECpower: Maximaler Energieverbrauch
SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.
SPECpower: Minimaler Energieverbrauch
SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.
Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata „Ausbalanciert“. Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus:
Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv:
Analyse: SunGard ACR
SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.
SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.
Linpack 64 Bit
Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.
Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.
Unter Linux 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux ebenfalls problemlos mit der von Intel-Compilern erstellten Linpack-Version zusammen.
Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.
Encryption/Decryption: openSSL 64 Bit
Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.
Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle, für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.
Rendering: SPECapc 3ds Max 2009 x64
Discreet/Autodesk bietet mit 3ds Max 2009 x64 eine professionelle Software für 3D-Modelling, Animation und Rendering an. Bei den Render-Vorgängen nutzt 3ds Max 9 2009 x64 Multiprocessing voll aus. Die Multi-Core-Technologie sowie ein zweiter Prozessor wirken somit beschleunigend.
Die gewählten Render-Szenen „Space Flyby“ und „Underwater“ basieren auf der Benchmark-Suite SPECapc for 3ds Max von SPEC.org. Die Grafikkarten-Performance spielt beim Rendering keine Rolle, die OpenGL/DirectX-basierten Tests der SPECapc-Suite verwenden wir nicht.
Rendering: CINEBENCH 10 64 Bit
Mit dem CINEBENCH 10 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 10 basiert auf Cinema 4D Release 10 und führt wieder Rendering-Tests durch. Maxon bietet CINEBENCH 10 als 32- und 64-Bit-Version zum Download an.
Beim Render-Teset wird eine fotorealistische 3D-Szene mithilfe des Cinema-4D-Raytracers berechnet. Die Szene enthält unter anderem Lichtquellen, Schatteneffekte sowie Multi-Level-Reflektionen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 10 wenig – der Test läuft überwiegend in den Cache-Stufen ab.
AMD & Intel: Listenpreise Zwei-Sockel-CPUs
In der Tabelle finden Sie die Preise der aktuellen Xeon- und Opteron-Preise für Systeme mit vier oder mehr Sockeln. Bei AMDs Preisliste gab es am 13. November 2008 die letzten Änderungen. Intels Preisliste wurde am 19. Oktober 2008 aktualisiert.
Modell |
Taktfrequenz /FSB [MHz] |
Listenpreis [US-Dollar] |
---|---|---|
AMD 45-nm-Quad-Core |
||
Opteron 2384 |
2700 / 1000 |
989 |
Opteron 2382 |
2600 / 1000 |
873 |
Opteron 2380 |
2500 / 1000 |
698 |
Opteron 2378 |
2400 / 1000 |
523 |
Opteron 2376 |
2300 / 1000 |
377 |
AMD 65-nm-Quad-Core |
||
Opteron 2360 SE |
2500 / 1000 |
1165 |
Opteron 2358 SE |
2400 / 1000 |
873 |
Opteron 2356 |
2300 / 1000 |
690 |
Opteron 2354 |
2200 / 1000 |
455 |
Opteron 2352 |
2100 / 1000 |
316 |
Opteron 2350 |
2000 / 1000 |
255 |
Opteron 2350 HE |
2000 / 1000 |
316 |
Opteron 2347 HE |
1900 / 1000 |
255 |
Opteron 2346 HE |
1800 / 1000 |
209 |
Opteron 2344 HE |
1700 / 1000 |
209 |
Intel 45-nm-Quad-Core |
||
Xeon X5492 |
3400 / 1600 |
1493 |
Xeon X5482 |
3200 / 1600 |
1279 |
Xeon X5472 |
3000 / 1600 |
958 |
Xeon E5472 |
3000 / 1600 |
1022 |
Xeon X5470 |
3333 / 1333 |
1386 |
Xeon E5462 |
2800 / 1600 |
797 |
Xeon X5460 |
3160 / 1333 |
1172 |
Xeon X5450 |
3000 / 1333 |
851 |
Xeon E5450 |
3000 / 1333 |
915 |
Xeon E5440 |
2830 / 1333 |
690 |
Xeon E5430 |
2666 / 1333 |
455 |
Xeon L5430 |
2666 / 1333 |
562 |
Xeon E5420 |
2500 / 1333 |
316 |
Xeon L5420 |
2500 / 1333 |
380 |
Xeon E5410 |
2333 / 1333 |
256 |
Xeon L5410 |
2333 / 1333 |
320 |
Xeon E5405 |
2000 / 1333 |
209 |
Fazit
AMD darf seinen neuen 45-nm-Opteron dank der Energieeffizienz und Performance zu Recht als Erfolg feiern.
Den größten Sprung macht der neue 45-nm-Opteron in der Energieeffizienz. Sind die in 65 nm Strukturbreite gefertigten Opteron-2000-Modelle den Xeons in der Performance pro Watt überwiegend hoffnungslos unterlegen, drehen die Shanghai-CPUs den Spieß um. Neben der gesteigerten Performance geht der Energiekonsum trotz höherer Taktfrequenz massiv zurück. So steigert unser getesteter Supermicro-Server seine Energieeffizienz durch simples Austauschen der Opteron-2356-CPUs gegen zwei 2384er um 56 Prozent. Mit den Shanghai-Prozessoren setzt sich die Opteron-Plattform in der mit SPECpower ermittelten Energieeffizienz auch um mindestens 17 Prozent vom bauähnlichen Supermicro-Server mit Xeon-CPUs ab.
Bei sehr speicherintensiven Anwendungen stellt AMDs neuer Opteron „Shanghai“ in der Performance zudem das Maß der Dinge dar. So spielt der Opteron 2384 bei Servern mit zwei Prozessoren seine konzeptionellen Vorteile der integrierten Speicher-Controller und Hyper-Transport-Schnittstellen gekonnt aus. Die 2,7-GHz-Opterons bieten beispielsweise 21 Prozent mehr Rechenleistung beim renommierten CPU2006-Benchmark SPECfp_rate_base2006 als die 3,33-GHz-Xeon-X5470-CPUs. Für die gesteigerte Performance zeichnet neben der Taktfrequenzerhöhung – die dringend erforderlich war – auch die verdreifachte L3-Cache-Größe verantwortlich.
Java-Applikationen und viele rechenintensive Fließkomma-Anwendungen profitieren besonders von der Cache-Vergrößerung des Shanghai-Prozessors. Passen die Workloads jedoch nicht mehr überwiegend in den 6-MByte-L3-Cache, so sind Intels Xeon-Prozessoren mit 12 MByte L2-Cache wieder im Vorteil. Auch bei vielen Integer-Anwendungen agieren die Xeon-5400-CPU weiterhin sehr stark und lassen den Opteron 2384 hinter sich. Den Core-Prozessoren kommen dabei auch die höheren Taktfrequenzen bis 3,33 GHz zupasse.
Schnitzer und Verzögerungen wie beim Start der ersten Quad-Core-Opterons kann sich AMD ein zweites Mal aber nicht mehr leisten. So muss das Unternehmen zügig die bereits angekündigten 105-Watt-Opterons mit höheren Taktfrequenzen produzieren. Denn Intel wird zum Jahreswechsel die nächste Xeon-Generation mit Nehalem-Architektur vorstellen – mit integrierten Speicher-Controllern und seriellem Interface. (tecchannel/bb)