Google har nettopp publisert TurboQuant, en komprimeringsalgoritme som kan endre spillereglene for hele kunstig intelligens-bransjen. Presentert paa den prestisjetunge konferansen ICLR 2026 den 24. mars, tar dette forskningsarbeidet ledet av Amir Zandieh og Vahab Mirrokni fra Google Research tak i et av de storste tekniske problemene med dagens sprakmodeller: deres enorme minneforbruk. Og resultatene er imponerende.
Hvorfor AI bruker saa mye minne
For aa forsta viktigheten av TurboQuant, maa man forst forstaa hva som gjor AI treg i dag. Naar en modell som GPT, Gemini eller Claude genererer tekst, starter den ikke fra bunnen av med hvert ord. Den lagrer matematiske vektorer kalt nokkel-verdi (eller KV-cache) i minnet for hvert allerede genererte ord. Konkret konverteres hvert ord i samtalen din til en rekke desimaltall (for eksempel 1,29, 0,03, -0,76, 0,91...) lagret med 16-bits presisjon.
Problemet? Denne cachen vokser lineaert med tekstens lengde. For en modell med 8 milliarder parametere og en kontekst paa 32 000 tokens, bruker KV-cachen alene omtrent 4,6 GB VRAM. Ofte er det cachen — og ikke modellen selv — som metter GPU-minnet. Nettopp denne flaskehalsen er det TurboQuant loser.
Slik fungerer TurboQuant
Algoritmen opererer i to elegante matematiske trinn, hvert basert paa solide teoretiske fundamenter.
Trinn 1: PolarQuant — omorganisere dataene
Det forste trinnet bestaar i aa anvende en tilfeldig rotasjon paa datavektorene. Ved aa konvertere klassiske kartesiske koordinater til polarkoordinater (radius + vinkel), fordeler PolarQuant energien til hver vektor jevnt over alle dens komponenter. Resultatet? En forutsigbar statistisk fordeling som muliggjor optimal kvantisering via Lloyd-Max-algoritmen, uten behov for aa kalibrere noe som helst paa målmodellen. Dette trinnet eliminerer ogsaa behovet for aa lagre kostbare normaliseringskonstanter i minnet.
Trinn 2: QJL — korrigere restfeil
Det andre trinnet haandterer restfeilen som er igjen fra den forste komprimeringen. Quantized Johnson-Lindenstrauss-algoritmen (QJL) projiserer denne feilen gjennom en matematisk transformasjon, og beholder deretter bare en bit per element: tegnet (+1 eller -1). Denne korreksjonene gjor estimering av oppmerksomhetsskaar matematisk uten systematiske feil, med naermest null minneoverhead.
Tall som taler for seg selv
Ytelsestallene annonsert av Google Research er bemerkelsesverdig:
- 6x reduksjon av KV-cache-minnet uten maalbart presisonstap
- Komprimering av cacher ned til 3 bits per element (mot normalt 16 bits), uten noen retrening
- Hastighetsgevinster paa opptil 8x paa NVIDIA H100 GPU sammenlignet med ukomprimerte 32-bits nokler
- Ytelse naermest identisk med original presisjon paa benchmarkene LongBench, Needle In A Haystack, ZeroSCROLLS, RULER og L-Eval
Testene ble utfort paa Gemma- og Mistral-modeller, og dekket ulike oppgaver: sporsmaal og svar, kodegenerering og tekstoppsummering.
Tre fordeler som endrer spillet
Ingen trening krevet. I motsetning til andre komprimeringsmetoder krever TurboQuant ingen fininjustering eller kalibreringsdatasett. Det brukes direkte paa enhver eksisterende Transformer-modell, som den er.
Modellagnostisk. Algoritmen fungerer paa enhver Transformer-arkitektur. Det er ikke nodvendig aa tilpasse den avhengig av om du bruker Gemini, Llama, Mistral eller en annen modell.
Dataagnostisk. TurboQuant er det som kalles "datauavhengig": De teoretiske garantiene holder uavhengig av fordelingen av dataene som behandles. Inget spesifikt datasett er nodvendig for aa faa det til aa fungere.
Konkret innvirkning for utviklere
I praksis gjor TurboQuant det mulig aa kjore betydelig storre modeller paa forbrukermaskinvare. Ved aa kombinere 4-bits kvantiserte vekter med en 4-bits komprimert KV-cache, blir konfigurasjoner som tidligere var utenkelige mulige paa et enkelt spillgrafikkort.
Open source-samfunnet har ikke ventet: Flere implementeringer er allerede tilgjengelige, inkludert versjoner kompatible med HuggingFace, llama.cpp, vLLM og til og med et selvstendig Rust-bibliotek. Koden brukes paa noen faa linjer:
Sweet spot er ved 4 bits, der kvaliteten forblir uatskillelig fra FP16 paa modeller med 3 milliarder parametere og oppover. Ved 3 bits kan en liten forringelse oppstaa paa smaa modeller (under 1,6 milliarder parametere).
Konsekvensene for KI-industrien
Den potensielle innvirkningen gaar langt utover utviklerverdenen. Hvis TurboQuant blir utbredt — og alt tyder paa at det vil bli tilfellet — kan inferenskostnadene for KI-modeller falle med 50 % eller mer. Skytjenester som Google Cloud, AWS eller Azure kan betjene flere foresprorsler med den samme maskinvaren. Semantisk soking paa vektordatabaser i milliardskala vil bli betydelig mer effektivt.
Det er ikke overraskende at kunngjoeringen allerede har utloest reaksjoner paa finansmarkedene: Produsentene av minnebrikker saa kursene falle, ettersom investorer forventer redusert ettersporsmel etter hochytelsesminne. Noen analytikere sammenligner til og med innvirkningen med DeepSeek i begynnelsen av 2025.
TurboQuant er den typen tekniske fremskritt som ikke gjor store overskrifter for den brede offentligheten, men som stille og rolig transformerer en hel bransje. Ved aa komprimere arbeidsminnet til KI med en faktor 6 til 8, uten kvalitetstap og uten retrening, har Google potensielt nettopp gjort kunstig intelligens mye mer tilgjengelig — og mye billigere aa distribuere.
Norwegian
French
English
Spanish
Chinese
Japanese
Korean
Hindi
German