Chargement ...
Ved å fortsette å surfe på dette nettstedet, godtar du bruken av informasjonskapsler som sikrer at det fungerer som det skal.
noNorwegian
frFrench
enEnglish
esSpanish
zhChinese
jaJapanese
koKorean
hiHindi
deGerman
Recherche article
Me connecter
Fleche top bulle Fleche top bulle
DE EN ES FR HI JA KO NO ZH
Serverrom med blatt lys som representerer datainfrastrukturen som trengs for kunstig intelligens-modeller

TurboQuant: Google gjor AI 8 ganger raskere med mindre minne

Publié le 07 Avril 2026

Google har nettopp publisert TurboQuant, en komprimeringsalgoritme som kan endre spillereglene for hele kunstig intelligens-bransjen. Presentert paa den prestisjetunge konferansen ICLR 2026 den 24. mars, tar dette forskningsarbeidet ledet av Amir Zandieh og Vahab Mirrokni fra Google Research tak i et av de storste tekniske problemene med dagens sprakmodeller: deres enorme minneforbruk. Og resultatene er imponerende.

Hvorfor AI bruker saa mye minne

For aa forsta viktigheten av TurboQuant, maa man forst forstaa hva som gjor AI treg i dag. Naar en modell som GPT, Gemini eller Claude genererer tekst, starter den ikke fra bunnen av med hvert ord. Den lagrer matematiske vektorer kalt nokkel-verdi (eller KV-cache) i minnet for hvert allerede genererte ord. Konkret konverteres hvert ord i samtalen din til en rekke desimaltall (for eksempel 1,29, 0,03, -0,76, 0,91...) lagret med 16-bits presisjon.

Problemet? Denne cachen vokser lineaert med tekstens lengde. For en modell med 8 milliarder parametere og en kontekst paa 32 000 tokens, bruker KV-cachen alene omtrent 4,6 GB VRAM. Ofte er det cachen — og ikke modellen selv — som metter GPU-minnet. Nettopp denne flaskehalsen er det TurboQuant loser.

Slik fungerer TurboQuant

Algoritmen opererer i to elegante matematiske trinn, hvert basert paa solide teoretiske fundamenter.

Trinn 1: PolarQuant — omorganisere dataene

Det forste trinnet bestaar i aa anvende en tilfeldig rotasjon paa datavektorene. Ved aa konvertere klassiske kartesiske koordinater til polarkoordinater (radius + vinkel), fordeler PolarQuant energien til hver vektor jevnt over alle dens komponenter. Resultatet? En forutsigbar statistisk fordeling som muliggjor optimal kvantisering via Lloyd-Max-algoritmen, uten behov for aa kalibrere noe som helst paa målmodellen. Dette trinnet eliminerer ogsaa behovet for aa lagre kostbare normaliseringskonstanter i minnet.

Trinn 2: QJL — korrigere restfeil

Det andre trinnet haandterer restfeilen som er igjen fra den forste komprimeringen. Quantized Johnson-Lindenstrauss-algoritmen (QJL) projiserer denne feilen gjennom en matematisk transformasjon, og beholder deretter bare en bit per element: tegnet (+1 eller -1). Denne korreksjonene gjor estimering av oppmerksomhetsskaar matematisk uten systematiske feil, med naermest null minneoverhead.

Tall som taler for seg selv

Ytelsestallene annonsert av Google Research er bemerkelsesverdig:

  • 6x reduksjon av KV-cache-minnet uten maalbart presisonstap
  • Komprimering av cacher ned til 3 bits per element (mot normalt 16 bits), uten noen retrening
  • Hastighetsgevinster paa opptil 8x paa NVIDIA H100 GPU sammenlignet med ukomprimerte 32-bits nokler
  • Ytelse naermest identisk med original presisjon paa benchmarkene LongBench, Needle In A Haystack, ZeroSCROLLS, RULER og L-Eval

Testene ble utfort paa Gemma- og Mistral-modeller, og dekket ulike oppgaver: sporsmaal og svar, kodegenerering og tekstoppsummering.

Tre fordeler som endrer spillet

Ingen trening krevet. I motsetning til andre komprimeringsmetoder krever TurboQuant ingen fininjustering eller kalibreringsdatasett. Det brukes direkte paa enhver eksisterende Transformer-modell, som den er.

Modellagnostisk. Algoritmen fungerer paa enhver Transformer-arkitektur. Det er ikke nodvendig aa tilpasse den avhengig av om du bruker Gemini, Llama, Mistral eller en annen modell.

Dataagnostisk. TurboQuant er det som kalles "datauavhengig": De teoretiske garantiene holder uavhengig av fordelingen av dataene som behandles. Inget spesifikt datasett er nodvendig for aa faa det til aa fungere.

Konkret innvirkning for utviklere

I praksis gjor TurboQuant det mulig aa kjore betydelig storre modeller paa forbrukermaskinvare. Ved aa kombinere 4-bits kvantiserte vekter med en 4-bits komprimert KV-cache, blir konfigurasjoner som tidligere var utenkelige mulige paa et enkelt spillgrafikkort.

Open source-samfunnet har ikke ventet: Flere implementeringer er allerede tilgjengelige, inkludert versjoner kompatible med HuggingFace, llama.cpp, vLLM og til og med et selvstendig Rust-bibliotek. Koden brukes paa noen faa linjer:

Sweet spot er ved 4 bits, der kvaliteten forblir uatskillelig fra FP16 paa modeller med 3 milliarder parametere og oppover. Ved 3 bits kan en liten forringelse oppstaa paa smaa modeller (under 1,6 milliarder parametere).

Konsekvensene for KI-industrien

Den potensielle innvirkningen gaar langt utover utviklerverdenen. Hvis TurboQuant blir utbredt — og alt tyder paa at det vil bli tilfellet — kan inferenskostnadene for KI-modeller falle med 50 % eller mer. Skytjenester som Google Cloud, AWS eller Azure kan betjene flere foresprorsler med den samme maskinvaren. Semantisk soking paa vektordatabaser i milliardskala vil bli betydelig mer effektivt.

Det er ikke overraskende at kunngjoeringen allerede har utloest reaksjoner paa finansmarkedene: Produsentene av minnebrikker saa kursene falle, ettersom investorer forventer redusert ettersporsmel etter hochytelsesminne. Noen analytikere sammenligner til og med innvirkningen med DeepSeek i begynnelsen av 2025.

TurboQuant er den typen tekniske fremskritt som ikke gjor store overskrifter for den brede offentligheten, men som stille og rolig transformerer en hel bransje. Ved aa komprimere arbeidsminnet til KI med en faktor 6 til 8, uten kvalitetstap og uten retrening, har Google potensielt nettopp gjort kunstig intelligens mye mer tilgjengelig — og mye billigere aa distribuere.

Tags
TurboQuant
Google Research
AI-komprimering
KV-cache
ICLR 2026
LLM-inferens
Envoyer à un ami
Signaler cet article
A propos de l'auteur
Serverrom med blatt lys som representerer datainfrastrukturen som trengs for kunstig intelligens-modeller

TurboQuant: Google gjor AI 8 ganger raskere med mindre minne

Publié le 07 Avril 2026

Google har nettopp publisert TurboQuant, en komprimeringsalgoritme som kan endre spillereglene for hele kunstig intelligens-bransjen. Presentert paa den prestisjetunge konferansen ICLR 2026 den 24. mars, tar dette forskningsarbeidet ledet av Amir Zandieh og Vahab Mirrokni fra Google Research tak i et av de storste tekniske problemene med dagens sprakmodeller: deres enorme minneforbruk. Og resultatene er imponerende.

Hvorfor AI bruker saa mye minne

For aa forsta viktigheten av TurboQuant, maa man forst forstaa hva som gjor AI treg i dag. Naar en modell som GPT, Gemini eller Claude genererer tekst, starter den ikke fra bunnen av med hvert ord. Den lagrer matematiske vektorer kalt nokkel-verdi (eller KV-cache) i minnet for hvert allerede genererte ord. Konkret konverteres hvert ord i samtalen din til en rekke desimaltall (for eksempel 1,29, 0,03, -0,76, 0,91...) lagret med 16-bits presisjon.

Problemet? Denne cachen vokser lineaert med tekstens lengde. For en modell med 8 milliarder parametere og en kontekst paa 32 000 tokens, bruker KV-cachen alene omtrent 4,6 GB VRAM. Ofte er det cachen — og ikke modellen selv — som metter GPU-minnet. Nettopp denne flaskehalsen er det TurboQuant loser.

Slik fungerer TurboQuant

Algoritmen opererer i to elegante matematiske trinn, hvert basert paa solide teoretiske fundamenter.

Trinn 1: PolarQuant — omorganisere dataene

Det forste trinnet bestaar i aa anvende en tilfeldig rotasjon paa datavektorene. Ved aa konvertere klassiske kartesiske koordinater til polarkoordinater (radius + vinkel), fordeler PolarQuant energien til hver vektor jevnt over alle dens komponenter. Resultatet? En forutsigbar statistisk fordeling som muliggjor optimal kvantisering via Lloyd-Max-algoritmen, uten behov for aa kalibrere noe som helst paa målmodellen. Dette trinnet eliminerer ogsaa behovet for aa lagre kostbare normaliseringskonstanter i minnet.

Trinn 2: QJL — korrigere restfeil

Det andre trinnet haandterer restfeilen som er igjen fra den forste komprimeringen. Quantized Johnson-Lindenstrauss-algoritmen (QJL) projiserer denne feilen gjennom en matematisk transformasjon, og beholder deretter bare en bit per element: tegnet (+1 eller -1). Denne korreksjonene gjor estimering av oppmerksomhetsskaar matematisk uten systematiske feil, med naermest null minneoverhead.

Tall som taler for seg selv

Ytelsestallene annonsert av Google Research er bemerkelsesverdig:

  • 6x reduksjon av KV-cache-minnet uten maalbart presisonstap
  • Komprimering av cacher ned til 3 bits per element (mot normalt 16 bits), uten noen retrening
  • Hastighetsgevinster paa opptil 8x paa NVIDIA H100 GPU sammenlignet med ukomprimerte 32-bits nokler
  • Ytelse naermest identisk med original presisjon paa benchmarkene LongBench, Needle In A Haystack, ZeroSCROLLS, RULER og L-Eval

Testene ble utfort paa Gemma- og Mistral-modeller, og dekket ulike oppgaver: sporsmaal og svar, kodegenerering og tekstoppsummering.

Tre fordeler som endrer spillet

Ingen trening krevet. I motsetning til andre komprimeringsmetoder krever TurboQuant ingen fininjustering eller kalibreringsdatasett. Det brukes direkte paa enhver eksisterende Transformer-modell, som den er.

Modellagnostisk. Algoritmen fungerer paa enhver Transformer-arkitektur. Det er ikke nodvendig aa tilpasse den avhengig av om du bruker Gemini, Llama, Mistral eller en annen modell.

Dataagnostisk. TurboQuant er det som kalles "datauavhengig": De teoretiske garantiene holder uavhengig av fordelingen av dataene som behandles. Inget spesifikt datasett er nodvendig for aa faa det til aa fungere.

Konkret innvirkning for utviklere

I praksis gjor TurboQuant det mulig aa kjore betydelig storre modeller paa forbrukermaskinvare. Ved aa kombinere 4-bits kvantiserte vekter med en 4-bits komprimert KV-cache, blir konfigurasjoner som tidligere var utenkelige mulige paa et enkelt spillgrafikkort.

Open source-samfunnet har ikke ventet: Flere implementeringer er allerede tilgjengelige, inkludert versjoner kompatible med HuggingFace, llama.cpp, vLLM og til og med et selvstendig Rust-bibliotek. Koden brukes paa noen faa linjer:

Sweet spot er ved 4 bits, der kvaliteten forblir uatskillelig fra FP16 paa modeller med 3 milliarder parametere og oppover. Ved 3 bits kan en liten forringelse oppstaa paa smaa modeller (under 1,6 milliarder parametere).

Konsekvensene for KI-industrien

Den potensielle innvirkningen gaar langt utover utviklerverdenen. Hvis TurboQuant blir utbredt — og alt tyder paa at det vil bli tilfellet — kan inferenskostnadene for KI-modeller falle med 50 % eller mer. Skytjenester som Google Cloud, AWS eller Azure kan betjene flere foresprorsler med den samme maskinvaren. Semantisk soking paa vektordatabaser i milliardskala vil bli betydelig mer effektivt.

Det er ikke overraskende at kunngjoeringen allerede har utloest reaksjoner paa finansmarkedene: Produsentene av minnebrikker saa kursene falle, ettersom investorer forventer redusert ettersporsmel etter hochytelsesminne. Noen analytikere sammenligner til og med innvirkningen med DeepSeek i begynnelsen av 2025.

TurboQuant er den typen tekniske fremskritt som ikke gjor store overskrifter for den brede offentligheten, men som stille og rolig transformerer en hel bransje. Ved aa komprimere arbeidsminnet til KI med en faktor 6 til 8, uten kvalitetstap og uten retrening, har Google potensielt nettopp gjort kunstig intelligens mye mer tilgjengelig — og mye billigere aa distribuere.

Tags
TurboQuant
Google Research
AI-komprimering
KV-cache
ICLR 2026
LLM-inferens
Envoyer à un ami
Signaler cet article
A propos de l'auteur
Serverrom med blatt lys som representerer datainfrastrukturen som trengs for kunstig intelligens-modeller

TurboQuant: Google gjor AI 8 ganger raskere med mindre minne

Publié le 07 Avril 2026

Google har nettopp publisert TurboQuant, en komprimeringsalgoritme som kan endre spillereglene for hele kunstig intelligens-bransjen. Presentert paa den prestisjetunge konferansen ICLR 2026 den 24. mars, tar dette forskningsarbeidet ledet av Amir Zandieh og Vahab Mirrokni fra Google Research tak i et av de storste tekniske problemene med dagens sprakmodeller: deres enorme minneforbruk. Og resultatene er imponerende.

Hvorfor AI bruker saa mye minne

For aa forsta viktigheten av TurboQuant, maa man forst forstaa hva som gjor AI treg i dag. Naar en modell som GPT, Gemini eller Claude genererer tekst, starter den ikke fra bunnen av med hvert ord. Den lagrer matematiske vektorer kalt nokkel-verdi (eller KV-cache) i minnet for hvert allerede genererte ord. Konkret konverteres hvert ord i samtalen din til en rekke desimaltall (for eksempel 1,29, 0,03, -0,76, 0,91...) lagret med 16-bits presisjon.

Problemet? Denne cachen vokser lineaert med tekstens lengde. For en modell med 8 milliarder parametere og en kontekst paa 32 000 tokens, bruker KV-cachen alene omtrent 4,6 GB VRAM. Ofte er det cachen — og ikke modellen selv — som metter GPU-minnet. Nettopp denne flaskehalsen er det TurboQuant loser.

Slik fungerer TurboQuant

Algoritmen opererer i to elegante matematiske trinn, hvert basert paa solide teoretiske fundamenter.

Trinn 1: PolarQuant — omorganisere dataene

Det forste trinnet bestaar i aa anvende en tilfeldig rotasjon paa datavektorene. Ved aa konvertere klassiske kartesiske koordinater til polarkoordinater (radius + vinkel), fordeler PolarQuant energien til hver vektor jevnt over alle dens komponenter. Resultatet? En forutsigbar statistisk fordeling som muliggjor optimal kvantisering via Lloyd-Max-algoritmen, uten behov for aa kalibrere noe som helst paa målmodellen. Dette trinnet eliminerer ogsaa behovet for aa lagre kostbare normaliseringskonstanter i minnet.

Trinn 2: QJL — korrigere restfeil

Det andre trinnet haandterer restfeilen som er igjen fra den forste komprimeringen. Quantized Johnson-Lindenstrauss-algoritmen (QJL) projiserer denne feilen gjennom en matematisk transformasjon, og beholder deretter bare en bit per element: tegnet (+1 eller -1). Denne korreksjonene gjor estimering av oppmerksomhetsskaar matematisk uten systematiske feil, med naermest null minneoverhead.

Tall som taler for seg selv

Ytelsestallene annonsert av Google Research er bemerkelsesverdig:

  • 6x reduksjon av KV-cache-minnet uten maalbart presisonstap
  • Komprimering av cacher ned til 3 bits per element (mot normalt 16 bits), uten noen retrening
  • Hastighetsgevinster paa opptil 8x paa NVIDIA H100 GPU sammenlignet med ukomprimerte 32-bits nokler
  • Ytelse naermest identisk med original presisjon paa benchmarkene LongBench, Needle In A Haystack, ZeroSCROLLS, RULER og L-Eval

Testene ble utfort paa Gemma- og Mistral-modeller, og dekket ulike oppgaver: sporsmaal og svar, kodegenerering og tekstoppsummering.

Tre fordeler som endrer spillet

Ingen trening krevet. I motsetning til andre komprimeringsmetoder krever TurboQuant ingen fininjustering eller kalibreringsdatasett. Det brukes direkte paa enhver eksisterende Transformer-modell, som den er.

Modellagnostisk. Algoritmen fungerer paa enhver Transformer-arkitektur. Det er ikke nodvendig aa tilpasse den avhengig av om du bruker Gemini, Llama, Mistral eller en annen modell.

Dataagnostisk. TurboQuant er det som kalles "datauavhengig": De teoretiske garantiene holder uavhengig av fordelingen av dataene som behandles. Inget spesifikt datasett er nodvendig for aa faa det til aa fungere.

Konkret innvirkning for utviklere

I praksis gjor TurboQuant det mulig aa kjore betydelig storre modeller paa forbrukermaskinvare. Ved aa kombinere 4-bits kvantiserte vekter med en 4-bits komprimert KV-cache, blir konfigurasjoner som tidligere var utenkelige mulige paa et enkelt spillgrafikkort.

Open source-samfunnet har ikke ventet: Flere implementeringer er allerede tilgjengelige, inkludert versjoner kompatible med HuggingFace, llama.cpp, vLLM og til og med et selvstendig Rust-bibliotek. Koden brukes paa noen faa linjer:

Sweet spot er ved 4 bits, der kvaliteten forblir uatskillelig fra FP16 paa modeller med 3 milliarder parametere og oppover. Ved 3 bits kan en liten forringelse oppstaa paa smaa modeller (under 1,6 milliarder parametere).

Konsekvensene for KI-industrien

Den potensielle innvirkningen gaar langt utover utviklerverdenen. Hvis TurboQuant blir utbredt — og alt tyder paa at det vil bli tilfellet — kan inferenskostnadene for KI-modeller falle med 50 % eller mer. Skytjenester som Google Cloud, AWS eller Azure kan betjene flere foresprorsler med den samme maskinvaren. Semantisk soking paa vektordatabaser i milliardskala vil bli betydelig mer effektivt.

Det er ikke overraskende at kunngjoeringen allerede har utloest reaksjoner paa finansmarkedene: Produsentene av minnebrikker saa kursene falle, ettersom investorer forventer redusert ettersporsmel etter hochytelsesminne. Noen analytikere sammenligner til og med innvirkningen med DeepSeek i begynnelsen av 2025.

TurboQuant er den typen tekniske fremskritt som ikke gjor store overskrifter for den brede offentligheten, men som stille og rolig transformerer en hel bransje. Ved aa komprimere arbeidsminnet til KI med en faktor 6 til 8, uten kvalitetstap og uten retrening, har Google potensielt nettopp gjort kunstig intelligens mye mer tilgjengelig — og mye billigere aa distribuere.

Tags
TurboQuant
Google Research
AI-komprimering
KV-cache
ICLR 2026
LLM-inferens
Envoyer à un ami
Signaler cet article
A propos de l'auteur
07 Avril 2026 21:41:43

TurboQuant: Google macht KI 8-mal schneller bei weniger Speicher

Google hat soeben TurboQuant veroeffentlicht, einen Komprimierungsalgorithmus, der die Spielregeln fuer die gesamte KI-Branche veraendern koennte. Vorgestellt auf der renommierten Konferenz ICLR 2026 am 24. Maerz, befasst sich diese Forschungsarbeit von Amir Zandieh und Vahab Mirrokni von Google...
Read more
30 Mars 2026 12:47:13

TurboQuant : Google rend l IA 8 fois plus rapide avec moins de memoire

Google vient de publier TurboQuant, un algorithme de compression qui pourrait bien changer la donne pour toute l'industrie de l'intelligence artificielle. Presente lors de la prestigieuse conference ICLR 2026 le 24 mars dernier, ce travail de recherche mene par Amir Zandieh et Vahab Mirrokni de...
Read more