Test

AMDs Server-Prozessor Shanghai verblüfft

14.11.2008 von Christian Vilsbeck

Unsere Schwesterpublikation TecChannel hat AMDs brandneue Opteron-Server-CPUs „Shanghai“ mit 45-nm-Technologie getestet. Der Test klärt, ob höhere Taktfrequenzen, schnellerer Speicher und 6 MByte L3-Cache Geschwindigkeit und Energieeffizienz erhöhen können. Die Ergebnisse verblüffen.

Von Christian Vilsbeck, TecChannel

Vor gut einem Jahr stellte AMD seinen ersten Quad-Core-Opteron-Prozessors „Barcelona“ vor. Der überfällige und holprige Start der K10-Architektur wurde durch den TLB-Bug überschattet, wodurch der Hersteller erst im April 2008 fehlerfreie CPUs im so genannten "B3-Stepping" ausliefern konnte.

Für Intels Xeon-Prozessoren waren die AMD-CPUs trotzdem keine große Konkurrenz bei beliebten Servern mit zwei Sockeln. Die 45-nm-Xeons liegen in Geschwindigkeit und Energieeffizienz gegenüber den 65-nm-Barcelonas überwiegend vorne. Und zum Jahreswechsel 2008/2009 soll bereits die nächste Xeon-Generation mit "Nehalem"-Architektur auf den Markt kommen.

Höchste Zeit also für AMD, die nächste Opteron-Generation mit Code-Namen „Shanghai“ vorzustellen. Erstmals baut AMD die Vierkern-Server-Prozessoren in 45-nm-Technologie. Damit soll nicht nur die Energieeffizienz deutlich steigen, auch die Taktfrequenzen gehen endlich nach oben.

So arbeitet das im TecChannel-Testlabor untersuchte neue Topmodell "Opteron 2384" für Zwei-Sockel-Server mit 2,7 GHz Taktfrequenz. Viel wichtiger ist jedoch die von AMD maximal spezifizierte Energieaufnahme von nur 75 Watt. Neben der geringeren Strukturbreite sorgt die Smart-Fetch-Technologie – siehe nächste Seite – für gemäßigten Energiekonsum. Der bisher schnellste, im 65-nm-Verfahren produzierte Opteron 2360 SE mit 2,5 GHz Taktfrequenz ist noch mit 105 Watt spezifiziert.

Doch die Shanghai-Opterons bieten noch weitere Verbesserungen. So erweitert AMD den L3-Cache von 2 auf 6 MByte. Hier sollte je nach Anwendung ein merklicher Performance-Sprung möglich sein, denn bei der Cache-Größe liegt Intel bislang vorn. Wird doch vermehrt auf den Speicher zurückgegriffen, so steuert der 45-nm-Opteron nun gepufferte DDR2-DIMMs mit 800 statt nur 667 MHz Taktfrequenz an.

Wichtig laut AMD bleibt die Kompatibilität der neuen Opterons zu den bisherigen Sockel-F-Plattformen. Ein simples BIOS-Update genüge für den Einsatz der 45-nm-Opterons.

Im TecChannel-Testlabor vergleichen wir den neuen Opteron 2384 mit dem schnellsten 75-Watt-Vorgängermodell Opteron 2356 im identischen Zwei-Sockel-Server. Außerdem muss sich AMDs erster 45-nm-Prozessor gegen Intels Xeon-5400-Prozessoren beweisen. Wir überprüfen die Performance der CPUs bei Integer- und Floating-Point-Anwendungen wie Verschlüsselung, Rendering und Simulation. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Zwei-Sockel-Systeme. Die Ergebnisse sprechen für sich.

Details zum 45-nm-Opteron „Shanghai“

AMD vereint beim Opteron „Shanghai“ weiterhin alle vier Kerne auf einem Siliziumplättchen. Auf einer Die-Fläche von 258 mm² breiten sich zirka 758 Millionen Transistoren aus. Wie beim 65-nm-Vorgänger Opteron Barcelona steht bei Shanghai-CPUs jedem Kern ein dedizierter 512-KByte-L2-Cache zur Verfügung. Das Fassungsvermögen der für alle Kerne gemeinsamen dritten Pufferstufe verdreifachte AMD allerdings von 2 auf 6 MByte.

Zum Start des „Shanghai“ sind die Modelle Opteron 2376 (2,3 GHz), 2378 (2,4 GHz), 2380 (2,5 GHz), 2382 (2,6 GHz) und 2384 (2,7 GHz) für Zwei-Sockel-Systeme verfügbar. Für Vier- und Acht-Sockel-Systeme bietet AMD den Opteron 8378 (2,4 GHz), 8380 (2,5 GHz), 8382 (2,6 GHz) und 8384 (2,7 GHz) an. AMD spezifiziert die vierkernigen Opteron-Modelle mit einer maximalen Energieaufnahme von 75 Watt. Im ersten Quartal 2009 sollen laut AMD besonders stromsparende Opteron-HE-Modelle mit 55 Watt und High-Performance-Varianten Opteron SE mit 105 Watt folgen.

AMD Smart Fetch: "Schläft" ein Kern, werden dessen Cache-Inhalte in den L3-Puffer verlagert. So muss der Kern nicht geweckt werden, wenn die übrigen Cores auf dessen Cache zugreifen. (Quelle: AMD)

Für den geringeren Energiebedarf sorgt beim Opteron „Shanghai“ neben der 45-nm-Strukturbreite die Smart-Fetch-Technologie. Schaltet der Prozessor einen Kern ab, so wird der Inhalt des L1- und L2-Cache in den Shared-L3-Cache geladen. Bei Zugriffen anderer aktiver Cores auf die Caches des „schlafenden“ Kerns muss dieser nicht „aufgeweckt“ werden. Diese neue Smart-Fetch-Technologie soll laut AMD bis zu 15 Watt im typischen Betrieb einsparen.

Die neuen 45-nm-Opterons lassen sich laut AMD in bestehenden Socket-F-Systemen einsetzen; einzig ein BIOS-Update sei notwendig, sagt der Hesteller. Durch die unveränderte Socket-F-Infrastruktur setzt der Shanghai-Opteron weiterhin auf gepufferte DDR2-Speichermodule – allerdings mit Geschwindigkeiten bis 800 MHz. Der HyperTransport-Bus arbeitet wie bei den bisherigen Quad-Core-Opterons mit 1 GHz Taktfrequenz.

Modelle mit schnellerem HT-3.0-Interface sollen im ersten Halbjahr 2009 rechtzeitig zur Vorstellung der neuen Fiorano-Plattform folgen.

Opteron-Plattformen: Mitte 2009 gibt es von AMD wieder eine komplett eigene Server-Plattform. Fiorano für den Socket F unterstützt neben den neuen Shanghai-Opterons auch den künftigen Sechs-Core-Prozessor „Istanbul“ mit Hyper-Transport 3.0 und der zweiten PCI-Express-Generation. (Quelle: AMD)

Testsysteme: Supermicro-Server für AMD und Intel

AMDs Opteron 2384 „Shanghai“ und 2356 „Barcelona“ testen wir in dem identischen 2-Sockel-Server Supermicro A+ 2021M-UR+B. Der 2U-Server verwendet als Mainboard das Supermicro H8DMU+ mit NVIDIA MCP55Pro-Chipsatz. Jedem Prozessor stehen vier gepufferte 2-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Opteron-Server somit über 16 GByte Arbeitsspeicher.

Supermicro 2U-Server: Der Zwei-Sockel-Server dient als Testplattform für die Opteron-Prozessoren. Die Intel-CPUs nehmen in einem identischen Supermicro-Gehäuse Platz.

Um die Performance und die Energieeffizienz der Opteron-Prozessoren bestmöglich mit den Xeon-CPUs vergleichen zu können, verwenden wir für die Intel-CPUs den bauähnlichen SuperServer 6025W-NTR+B von Supermicro. Als Mainboard verwendet der 2U-Server ein Supermicro X7DWN+ mit Seaburg-Chipsatz. Vier FB-DIMM-Channels steuern insgesamt acht 2-GByte-Module vom Typ Nanya NT2GT72U4NB1BD-2C an. Die FB-DIMMs arbeiten bei der FSB1600-CPU Xeon E5472 mit DDR2-800-SDRAMs mit einem 5-5-5-Timing. Bei den FSB1333-Xeons steuert der Chipsatz den Speicher automatisch mit einer Geschwindigkeit von 667 MHz bei CL5 an.

Um insbesondere für die Energiemessungen gleiche Vorraussetzungen für den AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten von Samsung. Somit lassen sich bestmögliche Vergleiche zwischen den Prozessoren ziehen.

Der AMD-Supermicro-2U-Server lässt durch sein Beta-BIOS trotz Shanghai-Support allerdings keinen stabilen Betrieb des Opteron 2384 mit DDR2-800-Speicher zu. Alle Energieeffizienzmessungen müssen wir deshalb bei der neuen 45-nm-CPU mit DDR2-667-Geschwindigkeit (CL5) durchführen – wie beim Opteron 2356. Für reine Performance-Benchmarks testen wir den Opteron 2384 deshalb zusätzlich in dem Zwei-Sockel-Server Supermicro A+ 1021M-T2+B mit DDR2-800-Geschwindigkeit (CL6). Das verbaute Mainboard Supermicro H8DME-2 bietet einen stabilen Betrieb des Shanghai mit 800 MHz Speichertakt. Der 1U-Server besitzt allerdings eine andere Storage-/Netzteilausstattung und lässt sich deshalb für Energiemessungen weniger gut mit dem Intel-Server vergleichen. Die Performance des Opteron ist in beiden AMD-Systemen bei gleicher Speichergeschwindigkeit allerdings identisch.

Als Betriebssystem setzen wir Windows Server 2008 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 5 in der 64-Bit-Version.

Singlethread Integer: SPECint_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_base2006 arbeitet die Benchmark-Suite CPU2006 singlethreaded und nutzt die Vorteile mehrerer Kerne oder CPUs nicht aus. Die ermittelten Werte gelten als Indiz für die Performance der Prozessoren bei Ganzzahlenberechnungen.

SPECint_base2006: Die 17 Prozent höhere Taktfrequenz und die verdreifachte L3-Cache-Größe steigern die Integer-Leistung des Opteron 2384 um 45 Prozent gegenüber dem 2,3-GHz-Vorgänger. Die für ihre hohe Integer-Performance bekannte Core-Architektur manifestiert die Xeons weiterhin auf den Spitzenplätzen.

Multitask Integer: SPECint_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei den Zwei-Sockel-Servern mit Quad-Core-Prozessoren arbeiten acht Kopien parallel.

SPECint_rate_base2006: Sind alle Kerne der Prozessorpärchen im Einsatz, so schließen die zwei Opteron 2384 fast zu den 2,66-GHz-Xeons auf. Statt elf Prozent Rückstand wie im Singlethread-Test sind jetzt nur noch vier Prozent zu verzeichnen.

Singlethread Floating Point: SPECfp_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Floating-Point-Berechnungen von SPECfp_base2006 arbeitet die Benchmark-Suite CPU2006 singlethreaded und nutzt die Vorteile mehrerer Kerne oder CPUs nicht aus. Die ermittelten Werte gelten als Indiz für die Performance der Prozessoren bei Fließkommaberechnungen.

SPECfp_base2006: Der neue Opteron 2384 überzeugt mit einer sehr guten Floating-Point-Performance und setzt sich an die Spitze. Weil hier nur ein Kern arbeitet, stehen ihm neben den dedizierten 512 KByte L2-Cache die vollen 6 MByte des Shared-L3-Cache zur Verfügung. Beim Xeon sind für einen Kern im Singlethread-Test nur 6 MByte Shared-L2-Cache nutzbar. Die Quad-Core-Xeons bestehen aus zwei Dual-Core-Siliziumplättchen (je 6 MByte L2-Cache) in einem Gehäuse.

Intels 10.1-Compiler bieten mit dem Switch –QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung.

Multitask Floating Point: SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei den Zwei-Sockel-Servern mit Quad-Core-Prozessoren arbeiten acht Kopien parallel.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen enteilen die neuen Opteron 2384 den Xeon-CPUs. AMDs Konzept der integrierten Speicher-Controller in Verbindung mit den HyperTransport-Schnittstellen ist klar im Vorteil gegenüber Intels klassischem FSB/Chipsatz-Konzept. Dies wird deutlich, weil der Xeon X5470 im Singlethread-Test nur um fünf Prozent, hier aber um 18 Prozent zurückliegt.

Intels 10.1-Compiler bieten mit dem Switch –QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Verion 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung.

SPECjvm2008: Java Virtual Machine Performance

Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungssoftware zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett-Packard, IBM, Intel und Sun entwickelt.

Für die Performance des Systems in einer Java Virtual Machine zeigen sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.

SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.

Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:

Java Runtime: Die neuen Shanghai-Opterons arbeiten bei gleichem Speicher 19 Prozent schneller als die 2,3-GHz-Vorgänger. Damit platzieren sich die 45-nm-Opterons etwas über dem mit ähnlicher Taktfrequenz arbeitenden Xeon-L5430-CPUs. Der Einsatz von DDR2-800-Speicher sorgt beim Shanghai gegenüber DDR2-667 zusätzlich für vier Prozent mehr Java-Performance.

SPECpower: Maximale Java-Performance

SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.

SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten Vier-Sockel-Systemen sind zwei JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei Zwei-Sockel-Systemen die besten Ergebnisse.

Bei diesem Test sind die Energiesparoptionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.

Java-Performance: Die zwei Opteron 2384 (DDR2-800) setzen sich bei 17 Prozent höherer Taktfrequenz mit 43 mehr Rechenleistung vom Vorgänger Opteron 2356 ab. Der Java-Workload profitiert sehr von dem auf 6 MByte vergrößerten L3-Cache des Opteron 2384. Die zwei Xeon L5430 überholen mit ihrem je 12 MByte großen L2-Cache die 2,7-GHz-Opterons.

SPECpower: Energieeffizienz Performance/Watt

Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von zehn bis 100 Prozent gemessenen werden.

Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008 Enterprise x64 mit dem Energieschema „Ausbalanciert“. SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei dem SPECpower-Benchmark aktiv:

Mit Powermanagement: Der AMD-Server bietet mit den zwei 45-nm-Opterons eine um 60 Prozent höhere Energieeffizienz als mit den Opteron-2356-CPUs. Auch der Intel-basierte Supermicro-Server kommt an die Performance pro Watt des AMD-Servers nicht heran.

Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv.

Im folgenden Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme:

Ohne Powermanagement: Mit inaktivem PowerNow! reduzieren die zwei Opteron 2384 die Systemeffizienz um knapp drei Prozent. Bei den 65-nm-Opterons verschlechtert sich die Effizienz der Supermicro-Server um zwei Prozent.

SPECpower: Kurven Energieeffizienz

Der Energieeffizienz-Benchmark SPECpower_ssj2008 ermittelt für jeden Lastzustand von zehn bis 100 Prozent die Performance/Watt-Werte der Systeme. Hier zeigt sich: Je höher die Prozessorauslastung, desto besser die Energieeffizienz des gesamten Systems.

In den Diagrammen wird die Performance/Watt von zehn bis 100 Prozent in den roten Balken dargestellt. Die blaue Kurve zeigt zusätzlich den Energieverbrauch des Systems bei der entsprechenden Prozessorauslastung an. Links in den Bildern sehen Sie jeweils die Ergebnisse mit aktivem Prozessor-Powermanagement, rechts bei inaktivem SpeedStep (Intel) oder PowerNow! (AMD):

Opteron 2384 / 2,7 GHz / DDR2-667 / 75 Watt: Liegen nur zehn Prozent Last an, so erhöht PowerNow! die Energieeffizienz des Systems um acht Prozent. Bis hoch zu 70 Prozent erwirkt PowerNow! noch zwei Prozent mehr Effizienz.

Opteron 2356 / 2,3 GHz / DDR2-667 / 75 Watt: AMDs PowerNow!-Technologie sorgt bei dem 65-nm-Opteron bis hoch zu 70 Prozent Auslastung für eine Effizienzsteigerung. Darüber bricht die Performance mit PowerNow! leicht ein. Insgesamt sorgt die Stromspartechnologie aber für zwei Prozent mehr Effizienz.

Xeon X5470 / 3,33 GHz / 120 Watt: Besonders im Teillastbereich von 20 bis 50 Prozent Prozessorauslastung steigert SpeedStep die Energieeffizienz des Servers um bis zu zehn Prozent. Unter sehr hoher Last (ab 70 Prozent) bewirkt SpeedStep nur noch sehr wenig.

Xeon E5472 3,0 GHz 80 Watt TDP: Die Energieeinsparungen im Teillastbereich sind bei dem FSB1600-Modell mit SpeedStep ein wenig geringer als beim Xeon X5470, der das neuere E-Stepping besitzt.

Xeon L5430 / 2,66 GHz / 50 Watt: Die blau gekennzeichnete Energiekurve zeigt beim Low-Voltage-Xeon fast einen identischen Verlauf. Entsprechend sind die Performance/Watt-Werte mit und ohne SpeedStep hier sehr ähnlich. Durch geringe Unterschiede in der Core-Spannung und Taktfrequenz (zwischen 2,0 und 2,66 GHz) bewirkt SpeedStep beim Low-Voltage-Xeon wenig.

SPECpower: Maximaler Energieverbrauch

SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.

Verbrauchsarm: Mit den zwei Opteron 2384 mit 2,7 GHz beträgt der maximale Energiebedarf des AMD-Servers um satte 36 Watt weniger gegenüber den 2,3-GHz-Opterons. Der bauähnliche Intel-Server benötigt selbst mit den 50-Watt-Xeon-L5430-CPUs deutlich mehr Energie. Dies liegt an der Chipsatz-/FB-DIMM-Kombination.

SPECpower: Minimaler Energieverbrauch

SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.

Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata „Ausbalanciert“. Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus:

Mit Powermanagement: PowerNow! reduziert im Leerlauf beim Opteron 2384 die Taktfrequenz von 2,7 GHz auf 800 MHz und gleichzeitig die Core-Spannung von 1,3 auf 1,0 V. Mit einer Energieaufnahme von nur 171 Watt gibt sich der Supermicro-Server mit den 45-nm-Opterons ebenfalls sehr genügsam. Sind die zwei Opteron 2356 eingebaut, steigt der Leerlaufverbrauch auf 184 Watt. Der Intel-basierte Supermicro-Server genehmigt sich selbst mit den 50-Watt-Xeons deutlich mehr Energie.

Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv:

Ohne Powermanagement: Bei den 45-nm-Opterons erhöht sich der Energiebedarf im Leerlauf um 15 Watt. Die 2,3-GHz-Vorgängermodelle Opteron 2356 genehmigen sich ohne PowerNow! 10 Watt mehr.

Analyse: SunGard ACR

SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.

Schnelle Vorhersagen: Die zwei neuen 2,7-GHz-Opterons „Shanghai“ arbeiten bei 17 Prozent höherer Taktfrequenz um 20 Prozent flinker als zwei 2,3-GHz-Opterons „Barcelona“. Cache-Optimierungen sorgen für die zusätzliche Performance. Intels Xeon-Prozessoren sind durch ihre hohe Integer-Performance für die 45-nm-Opterons trotzdem nicht in Reichweite.

Linpack 64 Bit

Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.

Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.

Unter Linux 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux ebenfalls problemlos mit der von Intel-Compilern erstellten Linpack-Version zusammen.

Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.

Überlegen: Obwohl das Shanghai-Doppelpack nur mit 2,7 GHz Taktfrequenz arbeitet, werden die 3,33-GHz-Quad-Core-Xeons locker überholt. AMDs HyperTransport-Konzept mit den integrierten Speicher-Controllern zeigt bei diesem sehr speicherlastigen Benchmark die Überlegenheit gegenüber Intels „klassischer“ FSB-Technologie. Schnellerer DDR2-800-Speicher ermöglicht dem Opteron-2384-CPUs zirka fünf Prozent mehr Rechenleistung gegenüber 667 MHz Speichertakt.

Encryption/Decryption: openSSL 64 Bit

Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.

Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle, für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.

RSA-2048 Encryption: Der Test läuft überwiegend im Cache ab. Die neuen Opteron 2384 mit 2,7 GHz platzieren sich vor dem Xeon X5470 mit 3,33 GHz Taktfrequenz. Bereits das Vorgängermodell Opteron 2356 (2,3 GHz) verschlüsselt schneller als die 3,0-GHz-Xeons. Dies spricht für die Effizienz der K10-Architektur.

RSA-2048 Decryption: Auch das Entschlüsseln erledigen die 45-nm-Opterons mit dem höchsten Durchsatz.

Rendering: SPECapc 3ds Max 2009 x64

Discreet/Autodesk bietet mit 3ds Max 2009 x64 eine professionelle Software für 3D-Modelling, Animation und Rendering an. Bei den Render-Vorgängen nutzt 3ds Max 9 2009 x64 Multiprocessing voll aus. Die Multi-Core-Technologie sowie ein zweiter Prozessor wirken somit beschleunigend.

Die gewählten Render-Szenen „Space Flyby“ und „Underwater“ basieren auf der Benchmark-Suite SPECapc for 3ds Max von SPEC.org. Die Grafikkarten-Performance spielt beim Rendering keine Rolle, die OpenGL/DirectX-basierten Tests der SPECapc-Suite verwenden wir nicht.

Szene „Space Flyby“: Die zwei 45-nm-Quad-Core-Opterons arbeiten fast auf dem Niveau der mit ähnlicher Taktfrequenz agierenden Xeon-L5430-CPUs. Intels Xeon-X5470-Pärchen mit 3,33 GHz Taktfrequenz zieht den Opterons allerdings deutlich davon.

Szene Underwater: Bei diesem Render-Workload arbeiten die Opteron-2384-Prozessoren um 26 Prozent langsamer als zwei Xeon L5430. Die Puffergrößen von 512 KByte L2-Cache pro Kern und 6 MByte shared L3-Cache des 45-nm-Opterons reichen jetzt nicht mehr aus. Die Quad-Core-Xeons mit 12 MByte L2-Cache halten den Workload besser im Puffer.

Rendering: CINEBENCH 10 64 Bit

Mit dem CINEBENCH 10 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 10 basiert auf Cinema 4D Release 10 und führt wieder Rendering-Tests durch. Maxon bietet CINEBENCH 10 als 32- und 64-Bit-Version zum Download an.

Beim Render-Teset wird eine fotorealistische 3D-Szene mithilfe des Cinema-4D-Raytracers berechnet. Die Szene enthält unter anderem Lichtquellen, Schatteneffekte sowie Multi-Level-Reflektionen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 10 wenig – der Test läuft überwiegend in den Cache-Stufen ab.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet – Multi-Core nutzt hier nichts. AMDs Shanghai-Core arbeitet bei einer um 17 Prozent höheren Taktfrequenz um 45 Prozent schneller als der K10-Core des Opteron 2356. Die Cache-Verbesserungen kommen dem Opteron 2384 zugute.

Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Die 45-nm-Opterons sind um nur noch 18 Prozent langsamer als die Xeon-X5470-CPUs – bei einem Thread sind es noch 22 Prozent. Der native Quad-Core sowie die Kommunikation der CPUs via Hyper-Transport sorgen bei Multi-Thread-Anwendungen für einen Effizienzgewinn.

AMD & Intel: Listenpreise Zwei-Sockel-CPUs

In der Tabelle finden Sie die Preise der aktuellen Xeon- und Opteron-Preise für Systeme mit vier oder mehr Sockeln. Bei AMDs Preisliste gab es am 13. November 2008 die letzten Änderungen. Intels Preisliste wurde am 19. Oktober 2008 aktualisiert.

OEM-Preise im Vergleich
Modell	Taktfrequenz /FSB [MHz]	Listenpreis [US-Dollar]
AMD 45-nm-Quad-Core
Opteron 2384	2700 / 1000	989
Opteron 2382	2600 / 1000	873
Opteron 2380	2500 / 1000	698
Opteron 2378	2400 / 1000	523
Opteron 2376	2300 / 1000	377


AMD 65-nm-Quad-Core
Opteron 2360 SE	2500 / 1000	1165
Opteron 2358 SE	2400 / 1000	873
Opteron 2356	2300 / 1000	690
Opteron 2354	2200 / 1000	455
Opteron 2352	2100 / 1000	316
Opteron 2350	2000 / 1000	255
Opteron 2350 HE	2000 / 1000	316
Opteron 2347 HE	1900 / 1000	255
Opteron 2346 HE	1800 / 1000	209
Opteron 2344 HE	1700 / 1000	209


Intel 45-nm-Quad-Core
Xeon X5492	3400 / 1600	1493
Xeon X5482	3200 / 1600	1279
Xeon X5472	3000 / 1600	958
Xeon E5472	3000 / 1600	1022
Xeon X5470	3333 / 1333	1386
Xeon E5462	2800 / 1600	797
Xeon X5460	3160 / 1333	1172
Xeon X5450	3000 / 1333	851
Xeon E5450	3000 / 1333	915
Xeon E5440	2830 / 1333	690
Xeon E5430	2666 / 1333	455
Xeon L5430	2666 / 1333	562
Xeon E5420	2500 / 1333	316
Xeon L5420	2500 / 1333	380
Xeon E5410	2333 / 1333	256
Xeon L5410	2333 / 1333	320
Xeon E5405	2000 / 1333	209

Fazit

AMD darf seinen neuen 45-nm-Opteron dank der Energieeffizienz und Performance zu Recht als Erfolg feiern.

Den größten Sprung macht der neue 45-nm-Opteron in der Energieeffizienz. Sind die in 65 nm Strukturbreite gefertigten Opteron-2000-Modelle den Xeons in der Performance pro Watt überwiegend hoffnungslos unterlegen, drehen die Shanghai-CPUs den Spieß um. Neben der gesteigerten Performance geht der Energiekonsum trotz höherer Taktfrequenz massiv zurück. So steigert unser getesteter Supermicro-Server seine Energieeffizienz durch simples Austauschen der Opteron-2356-CPUs gegen zwei 2384er um 56 Prozent. Mit den Shanghai-Prozessoren setzt sich die Opteron-Plattform in der mit SPECpower ermittelten Energieeffizienz auch um mindestens 17 Prozent vom bauähnlichen Supermicro-Server mit Xeon-CPUs ab.

Bei sehr speicherintensiven Anwendungen stellt AMDs neuer Opteron „Shanghai“ in der Performance zudem das Maß der Dinge dar. So spielt der Opteron 2384 bei Servern mit zwei Prozessoren seine konzeptionellen Vorteile der integrierten Speicher-Controller und Hyper-Transport-Schnittstellen gekonnt aus. Die 2,7-GHz-Opterons bieten beispielsweise 21 Prozent mehr Rechenleistung beim renommierten CPU2006-Benchmark SPECfp_rate_base2006 als die 3,33-GHz-Xeon-X5470-CPUs. Für die gesteigerte Performance zeichnet neben der Taktfrequenzerhöhung – die dringend erforderlich war – auch die verdreifachte L3-Cache-Größe verantwortlich.

Java-Applikationen und viele rechenintensive Fließkomma-Anwendungen profitieren besonders von der Cache-Vergrößerung des Shanghai-Prozessors. Passen die Workloads jedoch nicht mehr überwiegend in den 6-MByte-L3-Cache, so sind Intels Xeon-Prozessoren mit 12 MByte L2-Cache wieder im Vorteil. Auch bei vielen Integer-Anwendungen agieren die Xeon-5400-CPU weiterhin sehr stark und lassen den Opteron 2384 hinter sich. Den Core-Prozessoren kommen dabei auch die höheren Taktfrequenzen bis 3,33 GHz zupasse.

Schnitzer und Verzögerungen wie beim Start der ersten Quad-Core-Opterons kann sich AMD ein zweites Mal aber nicht mehr leisten. So muss das Unternehmen zügig die bereits angekündigten 105-Watt-Opterons mit höheren Taktfrequenzen produzieren. Denn Intel wird zum Jahreswechsel die nächste Xeon-Generation mit Nehalem-Architektur vorstellen – mit integrierten Speicher-Controllern und seriellem Interface. (tecchannel/bb)