Von ChinaMobileMag auf Mittwoch, 10. September 2025
Kategorie: News

ARM Lumex: Neue CPU- und GPU-Architekturen für die KI-Ära

Atwas später als sonst hat ARM seine neuesten CPU und GPU Kern-Designs vorgestellt - gerade noch rechtzeitig vor dem Start des Mediatek Dimensity 9500 am 22. September, welcher voraussichtlich als erster Chip auf die neuen ARM Designs setzen wird. Die neue Lumex-Plattform von ARM bringt einen grundlegenden Wandel in der Namensgebung und Architektur der britischen Chipschmiede mit sich. Mit den vier neuen CPU-Kernen C1 Ultra, C1 Premium, C1 Pro und C1 Nano sowie der Mali G1 Ultra GPU setzt das Unternehmen neue Akzente für die nächste Generation von Smartphone-Prozessoren und legt dabei einen starken Fokus auf KI-Performance ohne Nutzung einer dedizierten NPU.

Vereinfachte Namensgebung nach 20 Jahren "ARM Cortex"

​Nach über zwei Jahrzehnten verabschiedet sich ARM von der etablierten Cortex-Bezeichnung seiner CPU-Designs und führt mit der Lumex-Plattform ein völlig neues Schema ein. Die CPU-Kerne erhalten nun die schlichte Bezeichnung C mit einer Zahl als Generationsnummer und den Zusätzen Ultra, Premium, Pro und Nano zur Leistungseinordnung. Alle neuen Kerne werden auf das Instruktionsset ARMv9.3 angehoben.

Dieses Namensschema erstreckt sich auch auf die Grafikeinheiten. Während die Mali-Bezeichnung bestehen bleibt, verschwindet die erst 2022 eingeführte Immortalis-Namensgebung wieder. Stattdessen kommen die GPUs als G1 Ultra, G1 Premium und G1 Pro auf den Markt, wobei die Zuordnung von der Anzahl der Shader-Kerne abhängig ist.

Das neue Schema ist Teil einer umfassenderen Neuordnung bei ARM, die verschiedene Plattformen für unterschiedliche Märkte vorsieht: Neoverse für Infrastruktur, Niva für PCs, Lumex für mobile Geräte, Zena für Automotive und Orbis für IoT-Anwendungen.

​{eblogads}

Vier CPU-Kerne für unterschiedliche Anforderungen

​Die neue C1-Familie erweitert das bisherige Dreigestirn um einen vierten Kern. Der C1 Ultra übernimmt die Rolle des leistungsstärksten Prime-Kerns und löst den Cortex X925 ab. ARM gibt an, dass die neuen Lumex C1 Ultra Kerne 25 Prozent mehr Leistung als die im Mai 2024 eingeführten Cortex X925 Prozessoren liefern werden. Die technischen Verbesserungen basieren auf bewährten Prinzipien: Das Out-of-Order-Fenster wurde um 25 Prozent vergrößert und kann nun etwa 2000 Instruktionen gleichzeitig verarbeiten. Die Bandbreite des L1-Instruktions-Cache stieg um 33 Prozent, während der L1-Daten-Cache auf 128kb verdoppelt wurde. Eine überarbeitete Sprungvorhersage und optimierte Prefetcher runden die Verbesserungen ab.

Der neue C1 Premium Kern positioniert sich zwischen dem bisherigen Cortex-X und der A700-Serie und zielt auf Sub-Flaggschiff-Geräte ab. Bei 35 Prozent geringerer Chipfläche als der C1 Ultra soll die Leistung nur um maximal 10 Prozent abfallen. Der C1 Pro ersetzt wiederum den Cortex A725 als Arbeitstier der Cluster-Konfiguration, während der C1 Nano weiterhin als effizienter Sparsamkeits-Kern fungiert.

SME2: Künstliche Intelligenz direkt auf der CPU

​Den größten konzeptionellen Wandel stellt die Integration der Scalable Matrix Extension 2 (SME2) dar. Diese Erweiterung der ARMv9.3-Architektur zielt darauf ab, KI-Berechnungen direkt auf der CPU zu beschleunigen, ohne auf externe NPUs oder GPUs angewiesen zu sein. ARM verspricht dadurch eine bis zu fünffache Leistungssteigerung bei KI-Workloads.

SME2 funktioniert als eigenständige Einheit außerhalb der CPU-Kerne, die von allen Kernen des C1 Clusters angesteuert werden kann. Diese Architektur ermöglicht es, die Einheit vollständig abzuschalten, wenn sie nicht benötigt wird, was die Energieeffizienz verbessert. In typischen Konfigurationen sind ein bis zwei SME2-Einheiten pro Cluster vorgesehen.

Die Leistungsgewinne variieren je nach Anwendung erheblich. Bei der Spracherkennung mit Whisper soll die Latenz von 1495 auf 315 Millisekunden sinken, während die Audio-Kodierung mit Gemma3 von 84 auf 398 Token pro Sekunde steigt. Für die Audio-Generierung mit Stable Audio gibt ARM eine Reduzierung von 27 auf 9,7 Sekunden an.

Mali G1: Fokus auf Raytracing-Leistung

​Die neue Mali G1 Ultra GPU setzt einen besonderen Schwerpunkt auf Raytracing-Beschleunigung. ARM verspricht eine Verdopplung der Raytracing-Leistung gegenüber der Immortalis-G925, erreicht durch eine komplett überarbeitete Ray Tracing Unit der zweiten Generation (RTUv2). Diese Angabe kannten wir ja zuvor schon von Leaks rund um den Mediatek Dimensity 9500, womit sich diese zumindest auf dem Papier erstmal bewahrheitet haben.

Die wichtigste technische Änderung betrifft den Wechsel von einem Packed-Ray- zu einem Single-Ray-Modell. Während beim bisherigen Verfahren 16 Strahlen zu Paketen gebündelt wurden, verarbeitet die RTUv2 jeden Strahl einzeln. Dies soll insbesondere bei inkohärenten Strahlen, die stark unterschiedliche Pfade nehmen, zu besseren Ergebnissen führen.

Die BVH-Traversierung erfolgt nun vollständig in Hardware statt wie bisher teilweise in Compute-Shadern. Die RTU kann als eigenständiges "Power-Island" komplett abgeschaltet werden, wenn keine Raytracing-Berechnungen anfallen. Dennoch bleiben die realen Leistungsgewinne in Spielen geringer als die beworbenen Spitzenwerte. In ARMs eigener Lumilings-Demo mit Unreal Engine 5 liegt der Zugewinn bei 40 Prozent.

Neben Raytracing verbessert sich allerdings auch die allgemeine GPU Rasterleistung um etwa 20 Prozent bei gleichzeitig neun Prozent geringerem Energieverbrauch pro Frame. Erreicht wird dies durch optimierte interne Verbindungen mit verdoppelter Bandbreite und eine Neuverteilung der L2-Cache-Slices von vier auf acht Einheiten.

​{eblogads}

Neue Interconnect-Architektur für weniger Flaschenhals

​Die Lumex-Plattform führt auch einen neuen System Interconnect L1 (SI L1) und eine überarbeitete Memory Management Unit L1 (MMU L1) ein. CPU und GPU sind nun direkt am gemeinsamen SI L1 angebunden, was die Interconnect-Latenz um bis zu 75 Prozent reduzieren soll. Das System ist bereits für den künftigen LPDDR6-Standard vorbereitet. Die Referenzplattform von ARM kombiniert zwei C1 Ultra Kerne mit 4,1GHz und sechs C1 Pro Kerne mit 3,5GHz. Hinzu kommen 16MB L3-Cache, 16MB System Level Cache und eine Mali G1 Ultra mit 14 Kernen. Laut ARM sind die Designs für die Fertigung auf dem N3P Node von TSMC ausgelegt.

Erste Implementierungen bald erwartet

​Die ersten auf der ARM Lumex-Architektur aufbauenden Prozessoren sollen bereits in den kommenden Wochen mit dem Mediatek Dimensity 9500 debütieren. Weitere Hersteller wie Google oder Xiaomi könnten folgen. Qualcomm wird hingegen mit der nächsten Generation seines Snapdragon 8 Elite wieder auf die selbst entwickelten Oryon-Kerne setzen, die aus der Übernahme von Nuvia entstanden sind. Allerdings dürfte auch Qualcomm früher oder später Chips mit der neuen ARM Architektur auf den Markt bringen, da die eigenen Oryon Kerne ja bisher ausschließlich den Oberklasse Smartphone Prozessoren sowie den Snapdragon X Chips für den Einsatz in PCs vorbehalten bleiben.

Quellen
ARM

Kommentare hinterlassen