Publié le 5 décembre 2025 à 09h30. Un nouveau chatbot basé sur l’intelligence artificielle, baptisé CellWhisperer, permet aux biologistes de poser des questions complexes sur les cellules et leurs gènes en langage courant, sans nécessiter de compétences en programmation. Cette avancée promet d’accélérer considérablement la recherche médicale et la compréhension des maladies.
- CellWhisperer est une intelligence artificielle capable d’interpréter les données d’expression génique en langage naturel.
- Le système a été entraîné sur un vaste ensemble de données publiques et peut répondre à des questions sur le développement des organes, les maladies et la régénération des tissus.
- Bien que prometteur, CellWhisperer, comme toute IA, peut parfois produire des « hallucinations » et doit être utilisé comme un outil d’aide à la recherche, et non comme un substitut à l’analyse statistique rigoureuse.
La biologie moléculaire génère une quantité massive de données, un véritable « trésor » selon Christoph Bock, bioinformaticien au centre de recherche CeMM pour la médecine moléculaire de Vienne. Grâce au séquençage unicellulaire, les chercheurs peuvent désormais analyser l’activité des gènes de cellules individuelles avec une précision sans précédent, révélant ainsi leur fonction, leur stade de développement et leur état de santé. Ces profils cellulaires sont essentiels pour comprendre la structure des tissus, des organes et le développement des maladies.
Cependant, l’exploitation de ces données requiert traditionnellement des compétences pointues en programmation, un obstacle pour de nombreux biologistes. Christoph Bock a donc décidé de renverser l’approche : au lieu d’apprendre aux biologistes à programmer, il a entrepris d’« apprendre à l’ordinateur à s’adapter et à parler aux biologistes dans un anglais normal », une approche particulièrement pertinente en 2025. Le fruit de ce travail est CellWhisperer, une intelligence artificielle présentée dans la revue Nature Biotechnology.
Pour entraîner CellWhisperer, l’équipe de recherche a constitué un vaste ensemble de données à partir de bases de données publiques telles que Gene Expression Omnibus (GEO) et ArrayExpress, qui regroupent les données d’expression génique partagées par des chercheurs du monde entier. Cet ensemble comprenait environ un million d’échantillons, allant de tissus tumoraux à des organes inflammés, mais les descriptions étaient souvent incohérentes et incomplètes. Les chercheurs ont donc utilisé un Large Language Model (LLM) pour annoter ces données et fournir une description précise pour chaque profil d’expression génique, par exemple : « Il s’agit d’un cancer de la vessie de grade 2 provenant d’un patient présentant les caractéristiques suivantes : […] ».
Ce processus a permis de créer un modèle de langage multimodal capable de traiter à la fois les données biologiques et le texte. Selon Christoph Bock, cette approche s’inspire des progrès de la traduction automatique. Pendant des années, les développeurs ont tenté d’enseigner aux ordinateurs les règles de grammaire et de vocabulaire, avec des résultats limités. La véritable avancée est venue en exposant les ordinateurs à des millions d’exemples de textes, leur permettant ainsi de reconnaître les schémas par eux-mêmes. L’Union européenne a joué un rôle important dans ce domaine en mettant à disposition de vastes corpus de traductions de haute qualité dans plus de 20 langues.
CellWhisperer fonctionne de manière similaire à ChatGPT, mais a été entraîné sur des données biologiques spécifiques. Il est possible, par exemple, de lui soumettre une infographie de biologie et de lui demander d’identifier les différents composants d’une cellule. Mais Christoph Bock ambitionnait d’aller plus loin : « Je veux pouvoir poser des questions au système et lui demander, par exemple, de quelles cellules il s’agit, ou quels gènes sont actifs dans une cellule hépatique. »
L’équipe a également fait appel à un autre LLM de l’entreprise française Mistral, qu’elle a adapté et utilisé pour générer 100 000 dialogues typiques entre un bioinformaticien et un système d’IA. Cela permet à CellWhisperer de « parler comme un bioinformaticien » tout en comprenant réellement les données d’expression des gènes. Le chatbot cellulaire est accessible gratuitement en ligne.
Discuter sur des cellules individuelles : voici à quoi ressemble une conversation avec CellWhisperer. (Capture d’écran : © Moritz Schäfer)
Les applications potentielles de CellWhisperer sont considérables. Dans une étude de cas publiée, les chercheurs ont demandé au système : « Où commence le développement du cœur ? » CellWhisperer a alors analysé des données provenant d’embryons humains et identifié le moment où une signature génétique cardiaque caractéristique devient apparente, une analyse qui aurait pris plusieurs semaines à un étudiant de niveau master ou doctorat. Une autre question posée concernait l’impact d’une maladie inflammatoire de l’intestin, comme le syndrome du côlon irritable, sur la capacité des tissus à se régénérer. Les résultats ont révélé que l’inflammation chronique soumet les tissus à un stress tel qu’ils perdent la signature de leurs cellules souches, compromettant ainsi leur capacité de régénération. Ces découvertes sont importantes car elles pourraient ouvrir la voie à de nouvelles thérapies visant à favoriser la régénération des tissus sans augmenter le risque de cancer.
Comme toute IA, CellWhisperer peut parfois produire des « hallucinations », c’est-à-dire des réponses incorrectes ou non fondées, en particulier lorsque les données d’entraînement sont incomplètes ou biaisées. Christoph Bock souligne qu’il est crucial de considérer CellWhisperer comme un outil d’aide à la recherche, et non comme un substitut à l’analyse statistique rigoureuse. « Avant de mener des expériences coûteuses, il est essentiel de valider les hypothèses générées par CellWhisperer à l’aide de méthodes statistiques classiques », explique-t-il. L’équipe de Bock travaille déjà sur des modèles prédictifs capables de répondre à des questions du type : « Que se passerait-il si je donnais ce médicament ? » ou « Comment la signature cellulaire évoluerait-elle ? », mais ce projet représente un défi de recherche à long terme.
