Menu

Aucun menu défini dans le customizer.

DeepSeek lance V4, optimisé pour les puces chinoises Huawei Ascend

DeepSeek a publié la preview de V4, sa nouvelle famille de modèles ajustée pour tourner sur les puces Ascend de Huawei. C’est un peu la première vraie démonstration que l’écosystème chinois peut faire fonctionner un grand modèle d’IA compétitif sans dépendre de Nvidia.

Pour rappel, DeepSeek avait déjà fait du bruit avec V3 fin 2024, en publiant un modèle compétitif à une fraction du coût d’entraînement des concurrents américains.

La gamme se décline en deux versions, V4-Pro et V4-Flash, avec une fenêtre de contexte qui passe de 128 000 tokens à un million. Sur du contexte d’un million de tokens, V4-Pro consomme seulement 27% de la puissance de calcul de la précédente V3.2 et 10% de la mémoire.

CyberStrikeAI : cet outil dopé à l’IA automatise les cyberattaques

Un développeur chinois a mis en ligne CyberStrikeAI, une plateforme open source qui combine IA générative et plus de 100 outils offensifs pour automatiser les cyberattaques. En parallèle, un pirate amateur russophone a compromis plus de 600 pare-feu FortiGate dans 55 pays avec l’aide de DeepSeek et Claude, le tout en à peine cinq semaines. Les hackers aussi ont visiblement droit à leur copilote.

Un arsenal offensif piloté par l’IA

DeepSeek mHC – Quand les réseaux de neurones menacent d’exploser

Bon, j’vais pas y aller par quatre chemins, l’architecture des Transformers qu’on utilise tous (GPT, Claude, Llama…) repose sur une brique qui n’a pas bougé depuis 2015 et qui s’appelle la connexion résiduelle.

C’est le fameux x + F(x) qui permet aux gradients de circuler sans mourir étouffés au bout de 3 couches mais avec l’arrivée de modèles de plus en plus massifs, un nouveau problème est apparu… En effet, au lieu de s’éteindre, le signal peut se mettre à gonfler jusqu’à l’EXPLOSION !!.