Menu

Aucun menu défini dans le customizer.

Reverse-SynthID – Le filigrane de Gemini mis à nu

SynthID, le filigrane invisible que Google injecte dans chaque image Gemini, c’était censé être incassable. Sauf qu’un dev a eu l’idée toute bête de générer des images noires et blanches avec Gemini, puis de regarder ce qui restait dans le domaine fréquentiel. Et là, surprise… le watermark est apparu en clair avec toutes ses fréquences porteuses !

Le projet
reverse-SynthID
documente le truc de A à Z où on comprend en gros, que le marquage IA de Google fonctionne en injectant de l’énergie à des fréquences bien précises dans le spectre de l’image via une
transformation de Fourier
. Le chercheur a identifié 6 fréquences porteuses principales, toutes avec une cohérence de phase supérieure à 99,9% et la blague, c’est que ce pattern est fixe. Donc pas de message unique par image, pas de clé qui change… c’est juste la même empreinte spectrale sur toutes les images sorties du modèle Gemini.

Un agent IA a mené 700 expériences en deux jours pour améliorer un modèle de langage

Andrej Karpathy, ancien chercheur chez OpenAI et ex-responsable de l’IA chez Tesla, a laissé tourner un agent IA pendant 48 heures sur un petit modèle de langage. Résultat : 700 expériences, 20 optimisations retenues et un gain de 11 % sur le temps d’entraînement.

Le principe d’autoresearch

Mais c’est quoi ce concept d’autoresearch ? Et bien le fonctionnement est assez direct : un agent IA reçoit un script d’entraînement de 630 lignes en Python et un budget de calcul fixe de 5 minutes par expérience sur un seul GPU. Et c’est là que l’agent se met en mouvement pour lire le code, formuler une hypothèse, modifier le script, lancer l’entraînement, évaluer le résultat, et surtout décider, ou non, de conserver une modification.

Claude Octopus – Faites débattre 3 IA sur votre code

Claude Octopus
, c’est un plugin Claude Code qui fait bosser trois IA ensemble sur le même problème. Codex pour l’implémentation, Gemini pour la recherche, Claude pour la synthèse, le tout avec un seuil de qualité à 75% qui bloque ce qui n’est pas au niveau.

En gros, au lieu de faire confiance à un seul modèle GPT ou Gemini, vous en mettez trois en parallèle et le plugin ne valide que si les résultats des trois moteurs convergent suffisamment.

Comma 4 + openpilot 0.11 – La conduite assistée open source passe un cap

Vous vous souvenez quand je vous parlais de
Geohot et de sa voiture autonome en 2015
? Le mec bidouillait une Acura avec des caméras à 13 balles et rêvait de vendre son kit à 1000 balles. Hé bien 10 ans plus tard, c’est fait ! Et si je vous reparle de ça aujourd’hui, c’est parce que sa société
comma.ai
sort la
v0.11
d’
openpilot
ainsi qu’un nouveau boîtier qui tient dans la main, le Comma 4 !

Google lance une IA pour traquer les bugs dans le noyau Linux

Google vient de rendre public Sashiko, un outil de revue de code par intelligence artificielle qui analyse automatiquement les correctifs soumis au noyau Linux. Sur un échantillon de 1 000 bugs récents, l’IA en a détecté 53 %, alors que les relecteurs humains les avaient tous ratés sans exception.

Comment fonctionne Sashiko

Sashiko a été développé en interne par l’équipe Linux de Google, sous la direction de Roman Gushchin. Le principe : chaque correctif envoyé sur la liste de diffusion du noyau Linux est automatiquement analysé par une IA qui cherche les erreurs, les incohérences et les bugs potentiels.

Fast SAM 3D Body – Quand l’IA scanne votre corps en 3D en 65ms

Vous prenez une photo de quelqu’un avec votre téléphone et magie magie, en une fraction de seconde, vous obtenez un modèle 3D complet de son corps. Ses bras, ses jambes, ses mains, ses pieds… tout y est, modélisé en 3D comme si vous aviez un vrai studio de motion capture à Hollywood.

Et ben c’est exactement ce que fait
SAM 3D Body
, un modèle d’IA développé par Meta.

En gros, vous lui filez une image de vous et l’IA reconstruit votre corps en volume, avec le squelette, les articulations et la surface de la peau. Jusqu’ici, ce genre de techno existait déjà mais c’était hyper lent, genre plusieurs secondes par image. Donc pas top si vous vouliez que ça suive, par exemple, vos mouvements en direct.

notebooklm-py – L’API Python que Google refuse de sortir

Google n’a jamais sorti d’API publique pour
NotebookLM
, son outil qui transforme vos documents en podcasts, quiz et autres résumés grâce à l’IA. Pas de SDK, pas de CLI, y’a rien du tout alors on est tous triiiiiste. A peine juste une interface web avec ses boutons moches et ses menus déroulants, mais impossible à scripter ou à intégrer dans le moindre pipeline bash.

Mais un dev bien inspiré a reverse-engineeré les endpoints REST internes et a pondu notebooklm-py, une lib Python de 168 Ko qui fait tout ce que le web UI refuse de faire. Franchement, c’était pas trop tôt ! Vous en avez rêvé, lui l’a fait !

OpenRAG – Le RAG clé en main qui vous évite 3 jours de galère

Monter un pipeline RAG, c’est un peu le parcours du combattant… entre le choix de la base vectorielle, le modèle d’embedding, l’orchestrateur, le parser de documents, vous en avez pour des heures de config avant de pouvoir poser la moindre question à vos PDF.

Mais c’était sans compter sur
OpenRAG
qui emballe tout ça dans un seul paquet prêt à l’emploi !

En gros, c’est un package open source (Apache 2.0) qui vous colle un orchestrateur visuel, un moteur de recherche vectorielle et un parser de documents hyper costaud, le tout déjà branché ensemble. Bon, dit comme ça, on dirait juste un assemblage de trucs existants… sauf que l’architecture est propre (FastAPI derrière, Next.js devant) et que tout est câblé d’entrée.

OpenRAG – Le RAG clé en main qui vous évite 3 jours de galère

Monter un pipeline RAG, c’est un peu le parcours du combattant… entre le choix de la base vectorielle, le modèle d’embedding, l’orchestrateur, le parser de documents, vous en avez pour des heures de config avant de pouvoir poser la moindre question à vos PDF.

Mais c’était sans compter sur
OpenRAG
qui emballe tout ça dans un seul paquet prêt à l’emploi !

En gros, c’est un package open source (Apache 2.0) qui vous colle un orchestrateur visuel, un moteur de recherche vectorielle et un parser de documents hyper costaud, le tout déjà branché ensemble. Bon, dit comme ça, on dirait juste un assemblage de trucs existants… sauf que l’architecture est propre (FastAPI derrière, Next.js devant) et que tout est câblé d’entrée.

LiteRT – L’IA embarquée de Google passe la seconde

TensorFlow Lite, c’est fini. Enfin presque car Google a rebrandé dernièrement son framework d’inférence embarquée sous le nom de
LiteRT
, et en a profité pour refaire pas mal de choses sous le capot.

Rassurez-vous mes petits prompts engineers (lol), le principe reste le même à savoir faire tourner des modèles de machine learning directement sur votre smartphone, votre tablette ou votre Raspberry Pi, sans envoyer vos données dans le cloud. Sauf que cette fois, y’a une nouvelle API baptisée Compiled Model qui change la donne car, en fait, l’ancien système vous obligeait à choisir manuellement votre accélérateur.