Chargement ...
Indem Sie auf dieser Website weiternavigieren, stimmen Sie der Verwendung von Cookies zu, die den ordnungsgemäßen Betrieb gewährleisten.
deGerman
frFrench
enEnglish
esSpanish
zhChinese
jaJapanese
koKorean
hiHindi
noNorwegian
Recherche article
Me connecter
Fleche top bulle Fleche top bulle
DE EN ES FR HI JA KO NO ZH
Serverraum mit blauem Licht als Symbol fuer die Recheninfrastruktur, die fuer KI-Modelle benoetigt wird

TurboQuant: Google macht KI 8-mal schneller bei weniger Speicher

Publié le 07 Avril 2026

Google hat soeben TurboQuant veroeffentlicht, einen Komprimierungsalgorithmus, der die Spielregeln fuer die gesamte KI-Branche veraendern koennte. Vorgestellt auf der renommierten Konferenz ICLR 2026 am 24. Maerz, befasst sich diese Forschungsarbeit von Amir Zandieh und Vahab Mirrokni von Google Research mit einem der groessten technischen Probleme aktueller Sprachmodelle: ihrem extremen Speicherverbrauch. Und die Ergebnisse sind beeindruckend.

Warum KI so viel Speicher verbraucht

Um die Bedeutung von TurboQuant zu verstehen, muss man zunaechst begreifen, was die KI heute verlangsamt. Wenn ein Modell wie GPT, Gemini oder Claude Text generiert, faengt es bei jedem Wort nicht von vorne an. Es speichert im Arbeitsspeicher mathematische Vektoren namens Schluessel-Wert (oder KV-Cache) fuer jedes bereits generierte Wort. Konkret wird jedes Wort Ihrer Konversation in eine Reihe von Dezimalzahlen (zum Beispiel 1,29, 0,03, -0,76, 0,91...) umgewandelt, die mit 16-Bit-Praezision gespeichert werden.

Das Problem? Dieser Cache waechst linear mit der Laenge des Textes. Fuer ein Modell mit 8 Milliarden Parametern und einem Kontext von 32.000 Token belegt der KV-Cache allein etwa 4,6 GB VRAM. Haeufig ist es der Cache — und nicht das Modell selbst —, der den GPU-Speicher saettigt. Genau diesen Engpass loest TurboQuant.

Wie TurboQuant funktioniert

Der Algorithmus arbeitet in zwei eleganten mathematischen Schritten, die jeweils auf soliden theoretischen Grundlagen basieren.

Schritt 1: PolarQuant — Daten neu ordnen

Im ersten Schritt wird eine zufaellige Rotation auf die Datenvektoren angewendet. Durch die Konvertierung klassischer kartesischer Koordinaten in Polarkoordinaten (Radius + Winkel) verteilt PolarQuant die Energie jedes Vektors gleichmaessig auf alle seine Komponenten. Das Ergebnis? Eine vorhersehbare statistische Verteilung, die eine optimale Quantisierung via Lloyd-Max-Algorithmus ermoeglicht, ohne dass am Zielmodell irgendetwas kalibriert werden muss. Dieser Schritt eliminiert auch die Notwendigkeit, kostspielige Normierungskonstanten im Speicher abzulegen.

Schritt 2: QJL — Restfehler korrigieren

Der zweite Schritt befasst sich mit dem Restfehler der ersten Komprimierung. Der Quantized Johnson-Lindenstrauss-Algorithmus (QJL) projiziert diesen Fehler durch eine mathematische Transformation und behaelt dann nur ein Bit pro Element: das Vorzeichen (+1 oder -1). Diese Korrektur macht die Schaetzung der Aufmerksamkeitswerte mathematisch unverzerrt, mit nahezu null Speicheraufwand.

Zahlen, die fuer sich sprechen

Die von Google Research angekuendigten Leistungswerte sind bemerkenswert:

  • 6-fache Reduzierung des KV-Cache-Speichers ohne messbare Praezisionsverluste
  • Komprimierung von Caches auf 3 Bits pro Element (statt normalerweise 16 Bits), ohne jegliches Nachtraining
  • Geschwindigkeitsgewinne von bis zu 8-fach auf NVIDIA H100 GPU gegenueber unkomprimierten 32-Bit-Schluesseln
  • Nahezu identische Leistung wie die urspruengliche Praezision in den Benchmarks LongBench, Needle In A Haystack, ZeroSCROLLS, RULER und L-Eval

Die Tests wurden an Gemma- und Mistral-Modellen durchgefuehrt und deckten verschiedene Aufgaben ab: Frage-Antwort-Systeme, Code-Generierung und Textzusammenfassung.

Drei Vorteile, die das Spiel veraendern

Kein Training erforderlich. Im Gegensatz zu anderen Komprimierungsmethoden erfordert TurboQuant kein Fine-Tuning und kein Kalibrierungsdatensatz. Es wird direkt auf jedes vorhandene Transformer-Modell angewendet, wie es ist.

Modell-agnostisch. Der Algorithmus funktioniert bei jeder Transformer-Architektur. Es ist nicht noetig, ihn anzupassen, je nachdem ob Sie Gemini, Llama, Mistral oder ein anderes Modell verwenden.

Daten-agnostisch. TurboQuant ist sogenannt "daten-unabhaengig": Seine theoretischen Garantien gelten unabhaengig von der Verteilung der verarbeiteten Daten. Kein spezifischer Datensatz ist noetig, um es zum Laufen zu bringen.

Konkreter Einfluss fuer Entwickler

In der Praxis ermoeglicht TurboQuant den Betrieb deutlich groesserer Modelle auf Consumer-Hardware. Durch die Kombination von 4-Bit-quantisierten Gewichten mit einem 4-Bit-komprimierten KV-Cache werden bisher undenkbare Konfigurationen auf einer einfachen Gaming-Grafikkarte realisierbar.

Die Open-Source-Community hat nicht gewartet: Mehrere Implementierungen sind bereits verfuegbar, darunter Versionen fuer HuggingFace, llama.cpp, vLLM und sogar eine eigenstaendige Rust-Bibliothek. Der Code ist in wenigen Zeilen einsetzbar:

Der optimale Punkt liegt bei 4 Bits, wo die Qualitaet bei Modellen mit 3 Milliarden Parametern und mehr von FP16 nicht zu unterscheiden ist. Bei 3 Bits kann bei kleinen Modellen (weniger als 1,6 Milliarden Parameter) eine leichte Verschlechterung auftreten.

Die Folgen fuer die KI-Industrie

Der potenzielle Einfluss geht weit ueber die Entwicklerwelt hinaus. Wenn sich TurboQuant verbreitet — und alles deutet darauf hin, dass dies der Fall sein wird — koennten die Inferenzkosten fuer KI-Modelle um 50 % oder mehr sinken. Cloud-Dienste wie Google Cloud, AWS oder Azure koennten mit derselben Hardware mehr Anfragen bedienen. Die semantische Suche in Vektordatenbanken im Milliardenmassstab wuerde deutlich effizienter werden.

Es ueberrascht nicht, dass die Ankuendigung bereits Reaktionen an den Finanzmaerkten ausgeloest hat: Speicherchiphersteller sahen ihre Kurse fallen, da Investoren einen Rueckgang der Nachfrage nach Hochleistungsspeicher antizipieren. Einige Analysten vergleichen die Wirkung sogar mit der von DeepSeek Anfang 2025.

TurboQuant ist die Art von technischem Fortschritt, der keine grossen Schlagzeilen macht, aber still und leise eine ganze Branche veraendert. Indem der Arbeitsspeicher von KI um den Faktor 6 bis 8 komprimiert wird, ohne Qualitaetsverlust und ohne Nachtraining, hat Google moeglicherweise soeben kuenstliche Intelligenz wesentlich zugaenglicher — und wesentlich kostenguenstiger in der Bereitstellung — gemacht.

Tags
TurboQuant
Google Research
KI-Komprimierung
KV-Cache
ICLR 2026
LLM-Inferenz
Envoyer à un ami
Signaler cet article
A propos de l'auteur
Serverraum mit blauem Licht als Symbol fuer die Recheninfrastruktur, die fuer KI-Modelle benoetigt wird

TurboQuant: Google macht KI 8-mal schneller bei weniger Speicher

Publié le 07 Avril 2026

Google hat soeben TurboQuant veroeffentlicht, einen Komprimierungsalgorithmus, der die Spielregeln fuer die gesamte KI-Branche veraendern koennte. Vorgestellt auf der renommierten Konferenz ICLR 2026 am 24. Maerz, befasst sich diese Forschungsarbeit von Amir Zandieh und Vahab Mirrokni von Google Research mit einem der groessten technischen Probleme aktueller Sprachmodelle: ihrem extremen Speicherverbrauch. Und die Ergebnisse sind beeindruckend.

Warum KI so viel Speicher verbraucht

Um die Bedeutung von TurboQuant zu verstehen, muss man zunaechst begreifen, was die KI heute verlangsamt. Wenn ein Modell wie GPT, Gemini oder Claude Text generiert, faengt es bei jedem Wort nicht von vorne an. Es speichert im Arbeitsspeicher mathematische Vektoren namens Schluessel-Wert (oder KV-Cache) fuer jedes bereits generierte Wort. Konkret wird jedes Wort Ihrer Konversation in eine Reihe von Dezimalzahlen (zum Beispiel 1,29, 0,03, -0,76, 0,91...) umgewandelt, die mit 16-Bit-Praezision gespeichert werden.

Das Problem? Dieser Cache waechst linear mit der Laenge des Textes. Fuer ein Modell mit 8 Milliarden Parametern und einem Kontext von 32.000 Token belegt der KV-Cache allein etwa 4,6 GB VRAM. Haeufig ist es der Cache — und nicht das Modell selbst —, der den GPU-Speicher saettigt. Genau diesen Engpass loest TurboQuant.

Wie TurboQuant funktioniert

Der Algorithmus arbeitet in zwei eleganten mathematischen Schritten, die jeweils auf soliden theoretischen Grundlagen basieren.

Schritt 1: PolarQuant — Daten neu ordnen

Im ersten Schritt wird eine zufaellige Rotation auf die Datenvektoren angewendet. Durch die Konvertierung klassischer kartesischer Koordinaten in Polarkoordinaten (Radius + Winkel) verteilt PolarQuant die Energie jedes Vektors gleichmaessig auf alle seine Komponenten. Das Ergebnis? Eine vorhersehbare statistische Verteilung, die eine optimale Quantisierung via Lloyd-Max-Algorithmus ermoeglicht, ohne dass am Zielmodell irgendetwas kalibriert werden muss. Dieser Schritt eliminiert auch die Notwendigkeit, kostspielige Normierungskonstanten im Speicher abzulegen.

Schritt 2: QJL — Restfehler korrigieren

Der zweite Schritt befasst sich mit dem Restfehler der ersten Komprimierung. Der Quantized Johnson-Lindenstrauss-Algorithmus (QJL) projiziert diesen Fehler durch eine mathematische Transformation und behaelt dann nur ein Bit pro Element: das Vorzeichen (+1 oder -1). Diese Korrektur macht die Schaetzung der Aufmerksamkeitswerte mathematisch unverzerrt, mit nahezu null Speicheraufwand.

Zahlen, die fuer sich sprechen

Die von Google Research angekuendigten Leistungswerte sind bemerkenswert:

  • 6-fache Reduzierung des KV-Cache-Speichers ohne messbare Praezisionsverluste
  • Komprimierung von Caches auf 3 Bits pro Element (statt normalerweise 16 Bits), ohne jegliches Nachtraining
  • Geschwindigkeitsgewinne von bis zu 8-fach auf NVIDIA H100 GPU gegenueber unkomprimierten 32-Bit-Schluesseln
  • Nahezu identische Leistung wie die urspruengliche Praezision in den Benchmarks LongBench, Needle In A Haystack, ZeroSCROLLS, RULER und L-Eval

Die Tests wurden an Gemma- und Mistral-Modellen durchgefuehrt und deckten verschiedene Aufgaben ab: Frage-Antwort-Systeme, Code-Generierung und Textzusammenfassung.

Drei Vorteile, die das Spiel veraendern

Kein Training erforderlich. Im Gegensatz zu anderen Komprimierungsmethoden erfordert TurboQuant kein Fine-Tuning und kein Kalibrierungsdatensatz. Es wird direkt auf jedes vorhandene Transformer-Modell angewendet, wie es ist.

Modell-agnostisch. Der Algorithmus funktioniert bei jeder Transformer-Architektur. Es ist nicht noetig, ihn anzupassen, je nachdem ob Sie Gemini, Llama, Mistral oder ein anderes Modell verwenden.

Daten-agnostisch. TurboQuant ist sogenannt "daten-unabhaengig": Seine theoretischen Garantien gelten unabhaengig von der Verteilung der verarbeiteten Daten. Kein spezifischer Datensatz ist noetig, um es zum Laufen zu bringen.

Konkreter Einfluss fuer Entwickler

In der Praxis ermoeglicht TurboQuant den Betrieb deutlich groesserer Modelle auf Consumer-Hardware. Durch die Kombination von 4-Bit-quantisierten Gewichten mit einem 4-Bit-komprimierten KV-Cache werden bisher undenkbare Konfigurationen auf einer einfachen Gaming-Grafikkarte realisierbar.

Die Open-Source-Community hat nicht gewartet: Mehrere Implementierungen sind bereits verfuegbar, darunter Versionen fuer HuggingFace, llama.cpp, vLLM und sogar eine eigenstaendige Rust-Bibliothek. Der Code ist in wenigen Zeilen einsetzbar:

Der optimale Punkt liegt bei 4 Bits, wo die Qualitaet bei Modellen mit 3 Milliarden Parametern und mehr von FP16 nicht zu unterscheiden ist. Bei 3 Bits kann bei kleinen Modellen (weniger als 1,6 Milliarden Parameter) eine leichte Verschlechterung auftreten.

Die Folgen fuer die KI-Industrie

Der potenzielle Einfluss geht weit ueber die Entwicklerwelt hinaus. Wenn sich TurboQuant verbreitet — und alles deutet darauf hin, dass dies der Fall sein wird — koennten die Inferenzkosten fuer KI-Modelle um 50 % oder mehr sinken. Cloud-Dienste wie Google Cloud, AWS oder Azure koennten mit derselben Hardware mehr Anfragen bedienen. Die semantische Suche in Vektordatenbanken im Milliardenmassstab wuerde deutlich effizienter werden.

Es ueberrascht nicht, dass die Ankuendigung bereits Reaktionen an den Finanzmaerkten ausgeloest hat: Speicherchiphersteller sahen ihre Kurse fallen, da Investoren einen Rueckgang der Nachfrage nach Hochleistungsspeicher antizipieren. Einige Analysten vergleichen die Wirkung sogar mit der von DeepSeek Anfang 2025.

TurboQuant ist die Art von technischem Fortschritt, der keine grossen Schlagzeilen macht, aber still und leise eine ganze Branche veraendert. Indem der Arbeitsspeicher von KI um den Faktor 6 bis 8 komprimiert wird, ohne Qualitaetsverlust und ohne Nachtraining, hat Google moeglicherweise soeben kuenstliche Intelligenz wesentlich zugaenglicher — und wesentlich kostenguenstiger in der Bereitstellung — gemacht.

Tags
TurboQuant
Google Research
KI-Komprimierung
KV-Cache
ICLR 2026
LLM-Inferenz
Envoyer à un ami
Signaler cet article
A propos de l'auteur
Serverraum mit blauem Licht als Symbol fuer die Recheninfrastruktur, die fuer KI-Modelle benoetigt wird

TurboQuant: Google macht KI 8-mal schneller bei weniger Speicher

Publié le 07 Avril 2026

Google hat soeben TurboQuant veroeffentlicht, einen Komprimierungsalgorithmus, der die Spielregeln fuer die gesamte KI-Branche veraendern koennte. Vorgestellt auf der renommierten Konferenz ICLR 2026 am 24. Maerz, befasst sich diese Forschungsarbeit von Amir Zandieh und Vahab Mirrokni von Google Research mit einem der groessten technischen Probleme aktueller Sprachmodelle: ihrem extremen Speicherverbrauch. Und die Ergebnisse sind beeindruckend.

Warum KI so viel Speicher verbraucht

Um die Bedeutung von TurboQuant zu verstehen, muss man zunaechst begreifen, was die KI heute verlangsamt. Wenn ein Modell wie GPT, Gemini oder Claude Text generiert, faengt es bei jedem Wort nicht von vorne an. Es speichert im Arbeitsspeicher mathematische Vektoren namens Schluessel-Wert (oder KV-Cache) fuer jedes bereits generierte Wort. Konkret wird jedes Wort Ihrer Konversation in eine Reihe von Dezimalzahlen (zum Beispiel 1,29, 0,03, -0,76, 0,91...) umgewandelt, die mit 16-Bit-Praezision gespeichert werden.

Das Problem? Dieser Cache waechst linear mit der Laenge des Textes. Fuer ein Modell mit 8 Milliarden Parametern und einem Kontext von 32.000 Token belegt der KV-Cache allein etwa 4,6 GB VRAM. Haeufig ist es der Cache — und nicht das Modell selbst —, der den GPU-Speicher saettigt. Genau diesen Engpass loest TurboQuant.

Wie TurboQuant funktioniert

Der Algorithmus arbeitet in zwei eleganten mathematischen Schritten, die jeweils auf soliden theoretischen Grundlagen basieren.

Schritt 1: PolarQuant — Daten neu ordnen

Im ersten Schritt wird eine zufaellige Rotation auf die Datenvektoren angewendet. Durch die Konvertierung klassischer kartesischer Koordinaten in Polarkoordinaten (Radius + Winkel) verteilt PolarQuant die Energie jedes Vektors gleichmaessig auf alle seine Komponenten. Das Ergebnis? Eine vorhersehbare statistische Verteilung, die eine optimale Quantisierung via Lloyd-Max-Algorithmus ermoeglicht, ohne dass am Zielmodell irgendetwas kalibriert werden muss. Dieser Schritt eliminiert auch die Notwendigkeit, kostspielige Normierungskonstanten im Speicher abzulegen.

Schritt 2: QJL — Restfehler korrigieren

Der zweite Schritt befasst sich mit dem Restfehler der ersten Komprimierung. Der Quantized Johnson-Lindenstrauss-Algorithmus (QJL) projiziert diesen Fehler durch eine mathematische Transformation und behaelt dann nur ein Bit pro Element: das Vorzeichen (+1 oder -1). Diese Korrektur macht die Schaetzung der Aufmerksamkeitswerte mathematisch unverzerrt, mit nahezu null Speicheraufwand.

Zahlen, die fuer sich sprechen

Die von Google Research angekuendigten Leistungswerte sind bemerkenswert:

  • 6-fache Reduzierung des KV-Cache-Speichers ohne messbare Praezisionsverluste
  • Komprimierung von Caches auf 3 Bits pro Element (statt normalerweise 16 Bits), ohne jegliches Nachtraining
  • Geschwindigkeitsgewinne von bis zu 8-fach auf NVIDIA H100 GPU gegenueber unkomprimierten 32-Bit-Schluesseln
  • Nahezu identische Leistung wie die urspruengliche Praezision in den Benchmarks LongBench, Needle In A Haystack, ZeroSCROLLS, RULER und L-Eval

Die Tests wurden an Gemma- und Mistral-Modellen durchgefuehrt und deckten verschiedene Aufgaben ab: Frage-Antwort-Systeme, Code-Generierung und Textzusammenfassung.

Drei Vorteile, die das Spiel veraendern

Kein Training erforderlich. Im Gegensatz zu anderen Komprimierungsmethoden erfordert TurboQuant kein Fine-Tuning und kein Kalibrierungsdatensatz. Es wird direkt auf jedes vorhandene Transformer-Modell angewendet, wie es ist.

Modell-agnostisch. Der Algorithmus funktioniert bei jeder Transformer-Architektur. Es ist nicht noetig, ihn anzupassen, je nachdem ob Sie Gemini, Llama, Mistral oder ein anderes Modell verwenden.

Daten-agnostisch. TurboQuant ist sogenannt "daten-unabhaengig": Seine theoretischen Garantien gelten unabhaengig von der Verteilung der verarbeiteten Daten. Kein spezifischer Datensatz ist noetig, um es zum Laufen zu bringen.

Konkreter Einfluss fuer Entwickler

In der Praxis ermoeglicht TurboQuant den Betrieb deutlich groesserer Modelle auf Consumer-Hardware. Durch die Kombination von 4-Bit-quantisierten Gewichten mit einem 4-Bit-komprimierten KV-Cache werden bisher undenkbare Konfigurationen auf einer einfachen Gaming-Grafikkarte realisierbar.

Die Open-Source-Community hat nicht gewartet: Mehrere Implementierungen sind bereits verfuegbar, darunter Versionen fuer HuggingFace, llama.cpp, vLLM und sogar eine eigenstaendige Rust-Bibliothek. Der Code ist in wenigen Zeilen einsetzbar:

Der optimale Punkt liegt bei 4 Bits, wo die Qualitaet bei Modellen mit 3 Milliarden Parametern und mehr von FP16 nicht zu unterscheiden ist. Bei 3 Bits kann bei kleinen Modellen (weniger als 1,6 Milliarden Parameter) eine leichte Verschlechterung auftreten.

Die Folgen fuer die KI-Industrie

Der potenzielle Einfluss geht weit ueber die Entwicklerwelt hinaus. Wenn sich TurboQuant verbreitet — und alles deutet darauf hin, dass dies der Fall sein wird — koennten die Inferenzkosten fuer KI-Modelle um 50 % oder mehr sinken. Cloud-Dienste wie Google Cloud, AWS oder Azure koennten mit derselben Hardware mehr Anfragen bedienen. Die semantische Suche in Vektordatenbanken im Milliardenmassstab wuerde deutlich effizienter werden.

Es ueberrascht nicht, dass die Ankuendigung bereits Reaktionen an den Finanzmaerkten ausgeloest hat: Speicherchiphersteller sahen ihre Kurse fallen, da Investoren einen Rueckgang der Nachfrage nach Hochleistungsspeicher antizipieren. Einige Analysten vergleichen die Wirkung sogar mit der von DeepSeek Anfang 2025.

TurboQuant ist die Art von technischem Fortschritt, der keine grossen Schlagzeilen macht, aber still und leise eine ganze Branche veraendert. Indem der Arbeitsspeicher von KI um den Faktor 6 bis 8 komprimiert wird, ohne Qualitaetsverlust und ohne Nachtraining, hat Google moeglicherweise soeben kuenstliche Intelligenz wesentlich zugaenglicher — und wesentlich kostenguenstiger in der Bereitstellung — gemacht.

Tags
TurboQuant
Google Research
KI-Komprimierung
KV-Cache
ICLR 2026
LLM-Inferenz
Envoyer à un ami
Signaler cet article
A propos de l'auteur
07 Avril 2026 21:41:49

TurboQuant: Google gjor AI 8 ganger raskere med mindre minne

Google har nettopp publisert TurboQuant, en komprimeringsalgoritme som kan endre spillereglene for hele kunstig intelligens-bransjen. Presentert paa den prestisjetunge konferansen ICLR 2026 den 24. mars, tar dette forskningsarbeidet ledet av Amir Zandieh og Vahab Mirrokni fra Google Research tak i...
Read more