L’Union européenne interdit l’IA générative dans ses communications officielles
L’UE adopte une approche très différente de celle des États-Unis en matière d’utilisation officielle des outils d’IA générative. La décision ne fait pas l’unanimité.
Auto Feed RSS
Vous faites tourner des LLMs en local comme le gros fifou de Hipster IA que vous êtes et, Ô drame, la VRAM de votre ordinateur explose dès que le contexte dépasse 8000 pauvres malheureux tokens ?
Le problème c’est le KV cache les amis ! Le KV cache c’est ce truc qui stocke les clés et valeurs d’attention et qui grossit linéairement avec la longueur du prompt. C’est pour gérer ce problème que Google a annoncé sous la forme d’un whitepaper uniquement un algo qui compresse tout ça de 3,8 à 6,4 fois… et youpi pour nous, y’a un dev qui l’a déjà implémenté dans
un fork de llama.cpp
.