Chinas DeepSeek: Ein Meilenstein der KI-Technologie

Logo der DeepSeek-App [AP Photo/Jon Elswick]

Ende Januar veröffentlichte DeepSeek, ein Start-up-Unternehmen mit Sitz im chinesischen Hangzhou, sein neuestes Modell der künstlichen Intelligenz, DeepSeek R1. Innerhalb weniger Tage wurde der Chatbot zur meist heruntergeladenen App im Apple App Store.

Die Fähigkeiten von DeepSeek erreichen oder übertreffen die modernsten KI-Modelle amerikanischer Unternehmen wie Meta und OpenAI. Sie überragen alle bisher verfügbaren Open-Source-Modelle und viele proprietäre Modelle in den meisten Standard-Benchmarks.

Diese Leistung sandte Schockwellen durch die Wall Street und führte an einem einzigen Tag zu Marktwertverlusten von rund 1 Billion US-Dollar. Sie stellt auch einen erheblichen Rückschlag für die Pläne der USA dar, den Bereich der künstlichen Intelligenz zu dominieren und China daran zu hindern, die USA als führende Wirtschafts- und Militärmacht der Welt zu überholen.

Darüber hinaus hat die mobile App von DeepSeek, die mit R1 verbunden ist, schnell die Charts im Apple Store erobert und die ChatGPT-App überflügelt. Im Google Play Store wurde sie bereits 10 Millionen Mal heruntergeladen.

Leistungssteigerungen des Modells

Sowohl in der Wissenschaft als auch in der Industrie wird die „Qualität“ eines KI-Modells anhand von Standard-Benchmarks gemessen. Bei diesen Benchmarks handelt es sich um vordefinierte Aufgaben, deren Lösungen bekannt sind. Das Modell wird auf diese Aufgaben angewendet und seine Ergebnisse mit den bekannten Problemlösungen verglichen. Grundsätzlich gilt: Je mehr korrekte Antworten gegeben werden, desto besser schneidet das Modell ab. Ein gemeinsamer Satz von Standard-Benchmarks ermöglicht zudem den direkten Vergleich der Modelle.

Das DeepSeek-Team testete sein R1-Modell mit 21 Benchmarks und verglich die Resultate mit denen führender KI-Modelle aus der Industrie, wie Meta, OpenAI und weiteren. Bei den Benchmarks handelte es sich um Aufgaben in englischer und chinesischer Sprache, Software-Programmierung sowie Mathematik.

Dabei wurde R1 mit vier branchenführenden KI-Modellen und der Vorgängerversion von DeepSeek verglichen. Zu den getesteten Modellen gehörten Claude-3.5-Sonnet-1022 von Anthropic und drei OpenAI-Modelle (GPT-4o, o1-mini und o1-1217) sowie das Vorgängermodell DeepSeek-V3.

DeepSeek R1 übertraf die anderen Modelle in 12 von 21 Benchmarks. Bei den verbleibenden neun Benchmarks belegte es in acht Fällen den zweiten und in einem Fall den vierten Platz.

Es ist anzumerken, dass o1-1217 aufgrund seines spezifischen Anwendungsbereichs nur in 11 Benchmarks eingesetzt werden konnte. Bei diesen 11 Aufgaben war R1 in vier Fällen das beste Modell, während o1-1217 in sechs Fällen und Claude in einem Fall den ersten Platz belegte. Darüber hinaus war R1 in 20 der 21 Benchmarks besser als o1-mini.

Dramatische Senkung des Berechnungsaufwandes

Besonders beeindruckend an DeepSeek ist die drastische Reduzierung der Rechenressourcen, die für den Aufbau von R1 benötigt wurden. DeepSeek benötigte deutlich weniger Rechenleistung als seine Konkurrenten.

Für den Aufbau von R1 waren etwa 2,8 Millionen Rechenstunden auf einer NVIDIA-Grafikkarte vom Typ H800 nötig. Solche Grafikprozessoren (GPUs) werden eingesetzt, weil sie komplexe mathematische Berechnungen effizient durchführen können. DeepSeek griff zu diesem Zweck auf eine Infrastruktur mit 2.048 H800-Karten zurück.

Der Unterschied ist enorm: Während Meta für sein weit verbreitetes Modell Llama-3.1 30,8 Millionen GPU-Stunden benötigte, wurden für DeepSeek R1 nur 9 Prozent der Rechenzeit verwendet. Da DeepSeek R1 zudem ein größeres Modell als Llama-3.1 ist, liegt die effektive Zeitersparnis sogar bei über 91 Prozent.

Die Größe eines Modells wird üblicherweise durch die Anzahl der darin enthaltenen numerischen Parameter ausgedrückt. DeepSeek R1 hat mit 671 Milliarden Parametern 66 Prozent mehr als Llama-3.1 mit 405 Milliarden Parametern.

Der Geschwindigkeitszuwachs bei der Modellerstellung ist umso beeindruckender, als der H800-Grafikprozessor eine abgespeckte Version des H100-Grafikprozessors von NVIDIA ist, um den Exportbeschränkungen der Vereinigten Staaten nach China zu entsprechen. Die Schätzung von Meta, dass 30,8 Millionen GPU-Stunden für Llama-3.1 benötigt wurden, basiert auf der schnelleren H100-GPU. Bei Tests zum Leistungsunterschied zwischen den GPUs wurde festgestellt, dass die H800 etwa 11,5 % langsamer ist als die H100.

Open Source (Offener Quellcode)

Die Tatsache, dass DeepSeek R1 Open Source ist, bedeutet, dass der vollständige Satz von 671 Milliarden Parametern und die Software zum Betrieb des Modells frei zum Herunterladen, Untersuchen und Modifizieren verfügbar sind. Open-Source-Modelle werden häufig von Softwareentwicklern und KI-Ingenieuren bevorzugt, da sie sich leichter für verschiedene Zwecke anpassen und modifizieren lassen.

Die führenden Modelle von OpenAI sind jedoch nicht Open Source, auch wenn der Name dies suggeriert. Beispielsweise ist es KI-Ingenieuren nicht gestattet, das führende OpenAI-Modell o1 oder seinen unmittelbaren Vorgänger GPT-4o zu untersuchen oder zu modifizieren.

Darüber hinaus implementiert R1 ein „Chain of Thought“ („Gedankenketten“)-Verfahren, eine Technik, die ursprünglich von OpenAI für sein o1-Modell entwickelt wurde. Während o1 und andere OpenAI-Modelle die „Argumentationsschritte“ in der „Chain of Thought“ verstecken, lässt R1 den Benutzer alle Schritte einsehen, die das Modell durchläuft, um zu einer Antwort zu kommen.

Da Open-Source-Modelle von jedermann verwendet und modifiziert werden können, hat sich eine Industrie von Unternehmen entwickelt, die Modelle hosten. So nutzen beispielsweise verschiedene Unternehmen das Open-Source-Modell Llama-3.1 von Meta. Diese Unternehmen konkurrieren um die Kosten für die Nutzung des Modells.

Beobachter stellten schnell fest, dass bestimmte Anfragen an die Version von R1, die von DeepSeek gehostet wird, keine Antwort erhalten auf Fragen wie: „Was ist auf dem Tian’anmen-Platz passiert?“ Die Quelloffenheit des Modells bedeutet daher nicht, dass China weniger autoritär wird. Sie bedeutet aber, dass jeder außerhalb Chinas die Möglichkeit hat, das Modell selbst zu hosten, und zwar ohne solche Einschränkungen und ohne Zensur.

Darüber hinaus werden auch OpenAI-Modelle kritisiert, die sich weigern, Fragen zum Gaza-Genozid zu beantworten, wenn sie dazu aufgefordert werden. Im Vergleich zu Open-Source-Modellen ist die Zensur bei geschlossenen Modellen wesentlich schwieriger zu überwinden.

Geringere Nutzungskosten

DeepSeek erhebt auch deutlich geringere Gebühren für die Nutzung von R1 als seine Konkurrenten. Die größten Modelle sind zu rechenintensiv, als dass sie auf einem Heimcomputer oder sogar auf den meisten Servern ausgeführt werden könnten. Dieselbe große GPU-Infrastruktur, die für die Erstellung der Modelle verwendet wird, wird in der Regel auch für deren Ausführung eingesetzt.

Das Ergebnis ist, dass KI-Unternehmen die Modelle auf ihren großen GPU-Clustern bereitstellen und Anfragen – so genannte Prompts – über das Internet entgegennehmen, die Prompts in das Modell eingeben und dann die Ausgabe des Modells an den Benutzer zurückgeben.

Die Ausführung von R1 über solche Anwendungsprogrammierschnittstellen (Application Programming Interfaces, APIs) oder API-Aufrufe über das Internet ist im Vergleich zu anderen führenden KI-Modellen sehr viel kostengünstiger. Derzeit berechnet DeepSeek für R1 weniger als 4 Prozent dessen, was OpenAI für die Ausführung seines Modells o1-1217 verlangt. Konkret belaufen sich die Kosten für o1 auf 15 Dollar pro Million Token (MT) Eingabe und 60 Dollar pro MT Ausgabe, während R1 0,55 Dollar pro MT Eingabe und 2,19 Dollar pro MT Ausgabe kostet. Ein Token entspricht ungefähr einem Wort.

Zur Erreichung der niedrigeren Betriebskosten für R1 verwendet DeepSeek eine Architektur mit der Bezeichnung „Mixture of Experts“ (Mischung von Experten). Das bedeutet, dass pro erzeugtem Token nur ein Bruchteil des Modells (37 Milliarden von 671 Milliarden Parametern, also ein „Experte“) aktiviert wird. Dies führt zu einer Verringerung der für die Ausgabe des Modells erforderlichen Rechenleistung und damit zu einer Verringerung der Kosten.

Darüber hinaus können Modelländerungen die zur Ausführung eines Modells erforderlichen Rechenressourcen durch einen als Quantisierung bezeichneten Prozess drastisch reduzieren. Obwohl die Quantisierung die Modellleistung verringert, können verschiedene Quantisierungsschemata die erforderlichen Rechenressourcen erheblich reduzieren, während die Modellleistung nur geringfügig abnimmt.

Die Tatsache, dass R1 Open Source ist, wurde bereits von zwei Forschern genutzt, um mehrere quantisierte Versionen zu erstellen. Eine dieser Versionen kann auf einem Desktop- oder Laptop-Computer mit nur 20 GB Arbeitsspeicher ausgeführt werden, auch wenn die Ausführung sehr langsam läuft. Diese Forscher haben ihre modifizierten Versionen von R1 als Open Source auf einem KI-Modell-Repository namens Hugging Face veröffentlicht.

Konsequenzen für die US-Dominanz im Bereich KI

In der Woche vor der Veröffentlichung der DeepSeek-Nachrichten kündigte Präsident Trump eine geplante 500-Milliarden-Dollar-Initiative namens StarGate zur Investition in Technologie und zur Sicherung der Vorherrschaft der Vereinigten Staaten im Bereich der KI an. Stargate LLC, ein Unternehmen mit Investitionen von OpenAI, Oracle, SoftBank und der Investmentfirma MGX, plant den Bau mehrerer KI-Datenzentren im ganzen Land, beginnend mit zehn Zentren in Texas. Trump kündigte außerdem an, die Vorschriften für die Erzeugung der enormen Strommengen aufzuheben, die für den Betrieb der Datenzentren erforderlich sind.

Darüber hinaus kündigte OpenAI am 21. Januar an, dass sein nächstes KI-Modell (o3-mini) in „ein paar Wochen“ auf den Markt kommen werde.

Der Erfolg von DeepSeek hat die StarGate-Initiative und die Pläne von OpenAI für o3-mini sofort in den Schatten gestellt. Mit anderen Worten: Der Erfolg hat die gesamte KI-Branche auf den Kopf gestellt. Die Wahrnehmung, dass die USA im Bereich der KI einen großen Vorsprung haben – ob zuvor gerechtfertigt oder nicht – ist praktisch über Nacht verschwunden. Dies wirft Fragen über die Fähigkeit der USA auf, eine Dominanz im Bereich der KI aufzubauen oder aufrechtzuerhalten. DeepSeek und sein R1-Modell sind zum zentralen Gesprächsthema geworden und haben den Arbeitsfokus großer Teile der KI-Branche verschoben.

Die Biden-Administration hatte nicht nur Exportkontrollen eingeführt, die das DeepSeek-Team dazu veranlassten, H800-GPUs anstelle von H100-GPUs zu verwenden, sondern diese Beschränkungen in den letzten Tagen ihrer Amtszeit auch noch ausgeweitet. Es war bereits zu erwarten, dass Präsident Trump die wirtschaftliche und militärische Konfrontation mit China weiter verschärfen würde, aber der Erfolg von DeepSeek wird die geplante Eskalation wahrscheinlich beschleunigen und verstärken.

Loading