GPT-2 comprend les protéines sans jamais les avoir apprises
Des chercheurs viennent de trouver un truc complètement dingue. Un modèle de langage entraîné UNIQUEMENT sur de l’anglais, du texte humain basique quoi, est capable de comprendre la biologie moléculaire sans jamais avoir vu une seule séquence de protéines durant son entraînement.
En gros, GPT-2 qui fait de la paraphrase d’ordinaire est, sans le savoir, un expert en détection d’
homologie protéique
. Je vous jure que c’est vrai !!
Liang Wang, chercheur à l’Université de Wuhan (les pangolins, tout ça tout ça, loool), a publié
une étude sur bioRxiv
qui remet en question pas mal de certitudes. L’idée, c’est que la “grammaire” du langage humain et celle du vivant partagent une structure profonde commune. Du coup, un modèle qui apprend à distinguer des phrases qui ont le même sens mais avec des mots dans un ordre différent… développe aussi la capacité de reconnaitre les protéines qui sont de la même “famille”.
