Un ingénieur de Netflix crée une appli pour alléger ses factures d’IA, puis l’ouvre à tout le monde
Tejas Chopra, ingénieur senior chez Netflix, a bricolé un petit logiciel appelé
Headroom
qui s’attaque à un poste de dépense devenu douloureux dans toutes les boîtes qui carburent à l’IA : la facture en tokens, ces unités que les modèles de langage facturent au passage et qui correspondent en gros à des morceaux de mots.
Son constat de départ est sévère. Près de 90% de ce qu’on balance à un grand modèle de langage, le type d’IA qui fait tourner ChatGPT, serait selon lui de la redondance pure, du remplissage que la machine paie au prix fort sans en tirer la moindre valeur.
Headroom s’installe comme un proxy, c’est-à-dire un intermédiaire qui se glisse entre votre machine et l’IA, et il tourne en local sur le port 8787. Avant que la moindre requête ne file vers le modèle, il intercepte tout ce qui gonfle le contexte, l’historique de conversation, les logs (les journaux d’activité techniques de la machine), les sorties d’outils, les bouts de documentation que le système a jugés utiles, et il compresse l’ensemble.
Un routeur devine d’abord le type de contenu, puis l’envoie vers le bon compresseur. Du code part vers un module qui le réduit à sa structure logique, son arbre syntaxique si vous voulez. Le JSON et le HTML, eux, passent à la moulinette pour virer tout le code de remplissage répétitif.
Et si le modèle réclame finalement la version complète ? Headroom garde les originaux de côté dans une petite base locale, Redis ou SQLite, et laisse l’IA aller les rechercher à la demande grâce à des marqueurs et au protocole MCP, ce standard récent qui permet à un modèle d’appeler des outils extérieurs tout seul.
Les taux de compression dépendent de la matière. Les logs serveur fondent de 90%. Les sorties d’outils MCP, bourrées de JSON répétitif, perdent à peu près 70%.
Présenté la semaine dernière à l’Open Source Summit, Headroom aurait déjà épargné quelque 700 000 dollars à ses utilisateurs, soit 200 milliards de tokens récupérés pour servir ailleurs.
Le projet reste officieux. Plusieurs équipes de Netflix s’en servent, mais ce n’est pas un produit maison estampillé par le studio.
À noter que Chopra a une explication assez simple à ce succès : beaucoup de ses utilisateurs sont des gens qui se sont fait sérieusement échauder par le coût des tokens, plus que par n’importe quoi d’autre.
Voir un ingénieur régler son propre problème de facture puis filer la solution gratuitement, plutôt que d’en faire une startup, c’est suffisamment rare pour qu’on le souligne.
Source :
The Register

Leave a Comment