itItalian
frFrench
deGerman
enEnglish
esSpanish
hiHindi
jaJapanese
koKorean
noNorwegian
zhChinese
Home Novità Notizie Tutorial Consumo Cultura Video Virali Varie
DE EN ES FR HI IT JA KO NO ZH
Salle di servori con eclairage bleu representant l infrastructure di calcul necessaire aux modeles d intelligenza artificiale

TurboQuant: Google rende l'IA 8 volte più veloce con meno memoria

Publié le 28 Juin 2026

Google vient di publier TurboQuant, un algorithme di compressione che pourrait bien cambiare la donne per toute l'industrie di l'intelligenza artificiale. Presente durante della prestigiosa conferenza ICLR 2026 il 24 marzo ultimo, questo lavoro di ricerca mene da Amir Zandieh e Vahab Mirrokni di Google Research s'attaque a l'un dei più gros probleme technici dei modeles di langage attuali: loro consommazione di memoire delirante. E i resultat sono impressionnant.

Perché i IA consommente tanto di memoire

Per comprendre l'importance di TurboQuant, il faut d'abord saisir il che ralentit i IA oggi. Quando un modele come GPT, Gemini o Claude genere del texte, il ne part pas di zero a chaque mot. Il stocke in memoire dei vectori mathematici appeles cle-valeur (o KV cache) per chaque mot deja genere. Concretamente, chaque mot di Il vostro conversazione è converti in unon sirie di nombres decimali (da exemple 1.29, 0.03, -0.76, 0.91...) stockes in 16 bits di precisione.

Il probleme? Questo cache grossit lineairamente con la vantaggio del texte. Per un modele di 8 milliard di parametre con un contesto di 32 000 tokens, il KV cache a lui seul consomme circa 4,6 Go di VRAM. Souvent, è il cache — e non il modele lui-meme — che sature la memoire del GPU. È questo goulot d'etranglement che TurboQuant vient resoudre.

Come fonctionne TurboQuant

L'algorithme opere in deux etapes mathematici elegante, chacune reposant su dei fondementi theorici solides.

Etape 1: PolarQuant — reorganiser i donnees

La premiere etape consiste a appliquer una rotazione aleatoire aux vectori di donnees. In convertissant i coordonnee cartesienne classici in coordonnee polaire (rayon + angle), PolarQuant repartit l'energie di chaque vecteur uniformamente su tutte suoi composante. Il resultat? Una distribuzione statistico previsibile che permette d'appliquer una quantificazione optimale via l'algorithme di Lloyd-Max, senza avere bisogno di calibrer cosa che questo soit sul modele cible. Questa etape elimine anche il bisogno di stocker dei constante di normalizzazione coutose in memoire.

Etape 2: QJL — corriger i errori residuelle

La seconde etape s'occupe di l'erreur residuelle laissee dalla premiere compressione. L'algorithme Quantized Johnson-Lindenstraus (QJL) projette questa erreur a travers una transformazione mathematico, puis ne conserve qu'un seul bit da elamente: il signe (+1 o -1). Questa correzione rende l'estimation dei scores d'attention mathematiquamente non biaisee, con un surcout memoire quasi nul.

Dei chiffre che parlent d'eux-memes

I performanze annoncee da Google Research sono remarquabili:

  • Reduzione di 6x della memoire del KV cache senza perte di precisione mesurabile
  • Compressione dei caches jusqu'a 3 bits da elamente (contro 16 bits habitualmente), senza aucun reentrainamente
  • Gain di vitesse allant jusqu'a 8x su GPU NVIDIA H100 da rapporto aux cles non quantifiee in 32 bits
  • Performanze quasi identici alla precisione originale sui benchmark LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval

I test hanno ete realise su dei modeles Gemma e Mistrale, couvrant dei taches variees: reponse a dei domande, generazione di code e resume di texte.

Trois atouts che changent la donne

Senza entrainamente. Contrairamente a altri methode di compressione, TurboQuant ne necessite aucun fine-tuning ni dataset di calibrazione. On l'applique directamente su n'importe quel modele Transformer existant, tel quel.

Agnostico au modele. L'algorithme fonctionne su n'importe quelle architecture Transformer. Pas bisogno di l'adapter selon che vous utilisez Gemini, Llama, Mistrale o un autre modele.

Agnostico aux donnees. TurboQuant è questo qu'on appelle "data-oblivious": suoi garantie theorici tiennent quelle che soit la distribuzione dei donnees traitee. Pas bisogno di jeu di donnees specifico per il fare fonctionner.

Un impact concreto per i developpori

In pratico, TurboQuant permette di fare tourner dei modeles significativamente più gros su del materiel grande public. In combinant dei poids quantifie in 4 bits con un KV cache compresse in 4 bits, dei configurazioni auparavant impensabili deviennent viabili su una semplice mappa graphico gaming.

La communaute open source n'a d'ailleurs pas attendu: diversi implementazioni sono deja disponibili, in particolare dei versioni compatibili HuggingFace, llama.cpp, vLLM e meme una bibliotheque Rust standalone. Il code s'utilise in quelque lignes:

Il sweet spot se situe a 4 bits, o la qualite resta indiscernabile del FP16 sui modeles di 3 milliard di parametre e più. A 3 bits, una legere degradatisi può apparaitre sui piccoli modeles (meno di 1,6 miliardo di parametre).

I consequenze per l'industrie di l'IA

L'impact potentiel va bien au-dela del mondo dei developpori. Si TurboQuant se generalise — e tutto porte a croire che questo sara il cas — i couts d'inference dei modeles d'IA pourraient chuter di 50% o più. I service cloud come Google Cloud, AWS o Azure pourraient servir maggiormente di requete con il meme materiel. La ricerca semantico su dei bases di vectori a l'echelle del miliardo d'elements deviendrait nettamente più efficace.

Senza surprise, l'annonce a deja fa reagir i marches finanziari: i fabricant di puces memoire hanno vu loro cours baisser, i investissori anticipant una reduzione della demande in memoire alta performanza. Alcuni analyste comparent meme l'impact a celui di DeepSeek debut 2025.

TurboQuant è il genre d'avancee technico che ne fa pas i gros titres grande public, ma che transforme silencieusamente toute una industria. In compressant la memoire di lavoro dei IA d'un facteur 6 a 8, senza perte di qualite e senza reentrainamente, Google vient potentialmente di rendre l'intelligenza artificiale beaucoup più accessibile — e beaucoup meno coutosa a deployer.

Tags
TurboQuant
Google Research
compressione IA
KV cache
ICLR 2026
inferenza LLM
Envoyer à un ami
Signaler cet article
A propos de l'auteur
Salle di servori con eclairage bleu representant l infrastructure di calcul necessaire aux modeles d intelligenza artificiale

TurboQuant: Google rende l'IA 8 volte più veloce con meno memoria

Publié le 28 Juin 2026

Google vient di publier TurboQuant, un algorithme di compressione che pourrait bien cambiare la donne per toute l'industrie di l'intelligenza artificiale. Presente durante della prestigiosa conferenza ICLR 2026 il 24 marzo ultimo, questo lavoro di ricerca mene da Amir Zandieh e Vahab Mirrokni di Google Research s'attaque a l'un dei più gros probleme technici dei modeles di langage attuali: loro consommazione di memoire delirante. E i resultat sono impressionnant.

Perché i IA consommente tanto di memoire

Per comprendre l'importance di TurboQuant, il faut d'abord saisir il che ralentit i IA oggi. Quando un modele come GPT, Gemini o Claude genere del texte, il ne part pas di zero a chaque mot. Il stocke in memoire dei vectori mathematici appeles cle-valeur (o KV cache) per chaque mot deja genere. Concretamente, chaque mot di Il vostro conversazione è converti in unon sirie di nombres decimali (da exemple 1.29, 0.03, -0.76, 0.91...) stockes in 16 bits di precisione.

Il probleme? Questo cache grossit lineairamente con la vantaggio del texte. Per un modele di 8 milliard di parametre con un contesto di 32 000 tokens, il KV cache a lui seul consomme circa 4,6 Go di VRAM. Souvent, è il cache — e non il modele lui-meme — che sature la memoire del GPU. È questo goulot d'etranglement che TurboQuant vient resoudre.

Come fonctionne TurboQuant

L'algorithme opere in deux etapes mathematici elegante, chacune reposant su dei fondementi theorici solides.

Etape 1: PolarQuant — reorganiser i donnees

La premiere etape consiste a appliquer una rotazione aleatoire aux vectori di donnees. In convertissant i coordonnee cartesienne classici in coordonnee polaire (rayon + angle), PolarQuant repartit l'energie di chaque vecteur uniformamente su tutte suoi composante. Il resultat? Una distribuzione statistico previsibile che permette d'appliquer una quantificazione optimale via l'algorithme di Lloyd-Max, senza avere bisogno di calibrer cosa che questo soit sul modele cible. Questa etape elimine anche il bisogno di stocker dei constante di normalizzazione coutose in memoire.

Etape 2: QJL — corriger i errori residuelle

La seconde etape s'occupe di l'erreur residuelle laissee dalla premiere compressione. L'algorithme Quantized Johnson-Lindenstraus (QJL) projette questa erreur a travers una transformazione mathematico, puis ne conserve qu'un seul bit da elamente: il signe (+1 o -1). Questa correzione rende l'estimation dei scores d'attention mathematiquamente non biaisee, con un surcout memoire quasi nul.

Dei chiffre che parlent d'eux-memes

I performanze annoncee da Google Research sono remarquabili:

  • Reduzione di 6x della memoire del KV cache senza perte di precisione mesurabile
  • Compressione dei caches jusqu'a 3 bits da elamente (contro 16 bits habitualmente), senza aucun reentrainamente
  • Gain di vitesse allant jusqu'a 8x su GPU NVIDIA H100 da rapporto aux cles non quantifiee in 32 bits
  • Performanze quasi identici alla precisione originale sui benchmark LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval

I test hanno ete realise su dei modeles Gemma e Mistrale, couvrant dei taches variees: reponse a dei domande, generazione di code e resume di texte.

Trois atouts che changent la donne

Senza entrainamente. Contrairamente a altri methode di compressione, TurboQuant ne necessite aucun fine-tuning ni dataset di calibrazione. On l'applique directamente su n'importe quel modele Transformer existant, tel quel.

Agnostico au modele. L'algorithme fonctionne su n'importe quelle architecture Transformer. Pas bisogno di l'adapter selon che vous utilisez Gemini, Llama, Mistrale o un autre modele.

Agnostico aux donnees. TurboQuant è questo qu'on appelle "data-oblivious": suoi garantie theorici tiennent quelle che soit la distribuzione dei donnees traitee. Pas bisogno di jeu di donnees specifico per il fare fonctionner.

Un impact concreto per i developpori

In pratico, TurboQuant permette di fare tourner dei modeles significativamente più gros su del materiel grande public. In combinant dei poids quantifie in 4 bits con un KV cache compresse in 4 bits, dei configurazioni auparavant impensabili deviennent viabili su una semplice mappa graphico gaming.

La communaute open source n'a d'ailleurs pas attendu: diversi implementazioni sono deja disponibili, in particolare dei versioni compatibili HuggingFace, llama.cpp, vLLM e meme una bibliotheque Rust standalone. Il code s'utilise in quelque lignes:

Il sweet spot se situe a 4 bits, o la qualite resta indiscernabile del FP16 sui modeles di 3 milliard di parametre e più. A 3 bits, una legere degradatisi può apparaitre sui piccoli modeles (meno di 1,6 miliardo di parametre).

I consequenze per l'industrie di l'IA

L'impact potentiel va bien au-dela del mondo dei developpori. Si TurboQuant se generalise — e tutto porte a croire che questo sara il cas — i couts d'inference dei modeles d'IA pourraient chuter di 50% o più. I service cloud come Google Cloud, AWS o Azure pourraient servir maggiormente di requete con il meme materiel. La ricerca semantico su dei bases di vectori a l'echelle del miliardo d'elements deviendrait nettamente più efficace.

Senza surprise, l'annonce a deja fa reagir i marches finanziari: i fabricant di puces memoire hanno vu loro cours baisser, i investissori anticipant una reduzione della demande in memoire alta performanza. Alcuni analyste comparent meme l'impact a celui di DeepSeek debut 2025.

TurboQuant è il genre d'avancee technico che ne fa pas i gros titres grande public, ma che transforme silencieusamente toute una industria. In compressant la memoire di lavoro dei IA d'un facteur 6 a 8, senza perte di qualite e senza reentrainamente, Google vient potentialmente di rendre l'intelligenza artificiale beaucoup più accessibile — e beaucoup meno coutosa a deployer.

Tags
TurboQuant
Google Research
compressione IA
KV cache
ICLR 2026
inferenza LLM
Envoyer à un ami
Signaler cet article
A propos de l'auteur
Salle di servori con eclairage bleu representant l infrastructure di calcul necessaire aux modeles d intelligenza artificiale

TurboQuant: Google rende l'IA 8 volte più veloce con meno memoria

Publié le 28 Juin 2026

Google vient di publier TurboQuant, un algorithme di compressione che pourrait bien cambiare la donne per toute l'industrie di l'intelligenza artificiale. Presente durante della prestigiosa conferenza ICLR 2026 il 24 marzo ultimo, questo lavoro di ricerca mene da Amir Zandieh e Vahab Mirrokni di Google Research s'attaque a l'un dei più gros probleme technici dei modeles di langage attuali: loro consommazione di memoire delirante. E i resultat sono impressionnant.

Perché i IA consommente tanto di memoire

Per comprendre l'importance di TurboQuant, il faut d'abord saisir il che ralentit i IA oggi. Quando un modele come GPT, Gemini o Claude genere del texte, il ne part pas di zero a chaque mot. Il stocke in memoire dei vectori mathematici appeles cle-valeur (o KV cache) per chaque mot deja genere. Concretamente, chaque mot di Il vostro conversazione è converti in unon sirie di nombres decimali (da exemple 1.29, 0.03, -0.76, 0.91...) stockes in 16 bits di precisione.

Il probleme? Questo cache grossit lineairamente con la vantaggio del texte. Per un modele di 8 milliard di parametre con un contesto di 32 000 tokens, il KV cache a lui seul consomme circa 4,6 Go di VRAM. Souvent, è il cache — e non il modele lui-meme — che sature la memoire del GPU. È questo goulot d'etranglement che TurboQuant vient resoudre.

Come fonctionne TurboQuant

L'algorithme opere in deux etapes mathematici elegante, chacune reposant su dei fondementi theorici solides.

Etape 1: PolarQuant — reorganiser i donnees

La premiere etape consiste a appliquer una rotazione aleatoire aux vectori di donnees. In convertissant i coordonnee cartesienne classici in coordonnee polaire (rayon + angle), PolarQuant repartit l'energie di chaque vecteur uniformamente su tutte suoi composante. Il resultat? Una distribuzione statistico previsibile che permette d'appliquer una quantificazione optimale via l'algorithme di Lloyd-Max, senza avere bisogno di calibrer cosa che questo soit sul modele cible. Questa etape elimine anche il bisogno di stocker dei constante di normalizzazione coutose in memoire.

Etape 2: QJL — corriger i errori residuelle

La seconde etape s'occupe di l'erreur residuelle laissee dalla premiere compressione. L'algorithme Quantized Johnson-Lindenstraus (QJL) projette questa erreur a travers una transformazione mathematico, puis ne conserve qu'un seul bit da elamente: il signe (+1 o -1). Questa correzione rende l'estimation dei scores d'attention mathematiquamente non biaisee, con un surcout memoire quasi nul.

Dei chiffre che parlent d'eux-memes

I performanze annoncee da Google Research sono remarquabili:

  • Reduzione di 6x della memoire del KV cache senza perte di precisione mesurabile
  • Compressione dei caches jusqu'a 3 bits da elamente (contro 16 bits habitualmente), senza aucun reentrainamente
  • Gain di vitesse allant jusqu'a 8x su GPU NVIDIA H100 da rapporto aux cles non quantifiee in 32 bits
  • Performanze quasi identici alla precisione originale sui benchmark LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval

I test hanno ete realise su dei modeles Gemma e Mistrale, couvrant dei taches variees: reponse a dei domande, generazione di code e resume di texte.

Trois atouts che changent la donne

Senza entrainamente. Contrairamente a altri methode di compressione, TurboQuant ne necessite aucun fine-tuning ni dataset di calibrazione. On l'applique directamente su n'importe quel modele Transformer existant, tel quel.

Agnostico au modele. L'algorithme fonctionne su n'importe quelle architecture Transformer. Pas bisogno di l'adapter selon che vous utilisez Gemini, Llama, Mistrale o un autre modele.

Agnostico aux donnees. TurboQuant è questo qu'on appelle "data-oblivious": suoi garantie theorici tiennent quelle che soit la distribuzione dei donnees traitee. Pas bisogno di jeu di donnees specifico per il fare fonctionner.

Un impact concreto per i developpori

In pratico, TurboQuant permette di fare tourner dei modeles significativamente più gros su del materiel grande public. In combinant dei poids quantifie in 4 bits con un KV cache compresse in 4 bits, dei configurazioni auparavant impensabili deviennent viabili su una semplice mappa graphico gaming.

La communaute open source n'a d'ailleurs pas attendu: diversi implementazioni sono deja disponibili, in particolare dei versioni compatibili HuggingFace, llama.cpp, vLLM e meme una bibliotheque Rust standalone. Il code s'utilise in quelque lignes:

Il sweet spot se situe a 4 bits, o la qualite resta indiscernabile del FP16 sui modeles di 3 milliard di parametre e più. A 3 bits, una legere degradatisi può apparaitre sui piccoli modeles (meno di 1,6 miliardo di parametre).

I consequenze per l'industrie di l'IA

L'impact potentiel va bien au-dela del mondo dei developpori. Si TurboQuant se generalise — e tutto porte a croire che questo sara il cas — i couts d'inference dei modeles d'IA pourraient chuter di 50% o più. I service cloud come Google Cloud, AWS o Azure pourraient servir maggiormente di requete con il meme materiel. La ricerca semantico su dei bases di vectori a l'echelle del miliardo d'elements deviendrait nettamente più efficace.

Senza surprise, l'annonce a deja fa reagir i marches finanziari: i fabricant di puces memoire hanno vu loro cours baisser, i investissori anticipant una reduzione della demande in memoire alta performanza. Alcuni analyste comparent meme l'impact a celui di DeepSeek debut 2025.

TurboQuant è il genre d'avancee technico che ne fa pas i gros titres grande public, ma che transforme silencieusamente toute una industria. In compressant la memoire di lavoro dei IA d'un facteur 6 a 8, senza perte di qualite e senza reentrainamente, Google vient potentialmente di rendre l'intelligenza artificiale beaucoup più accessibile — e beaucoup meno coutosa a deployer.

Tags
TurboQuant
Google Research
compressione IA
KV cache
ICLR 2026
inferenza LLM
Envoyer à un ami
Signaler cet article
A propos de l'auteur