> Découvrir > IA et Science > IA et Science : outil ou danger ?

L'IA et la Science : outil puissant ou risque de perte d'originalité ? L'IA et la Science : outil puissant ou risque de perte d'originalité ?

Niveau de difficulté : 3

Lundi 2 mars 2026 

Bonjour à toutes et à tous et Bienvenue ! 

Aujourd'hui, Terres du Passé vous propose de discuter d'un thème suscitant beaucoup de débats et de réflexions dans tous les domaines, mais également en Science : l'usage de l'Intelligence Artificielle (IA)

Pour cela, reprenons par étapes ce que dit le site web de la revue Science dans l'article : How will we know if AI is smart enough to do science, par Celina Zhao - en y incorporant des liens avec l'océanographie

1. Problématique principale

L’article explore une question simple mais fondamentale : comment évaluer de façon rigoureuse si une intelligence artificielle (IA) est capable de « faire de la science » de manière autonome, c’est-à-dire pas seulement d’assister des scientifiques, mais de conduire un raisonnement scientifique complet qui mène à des découvertes nouvelles.

Le débat ne porte pas seulement sur les prouesses techniques des IA actuelles, mais sur la nature même de la science — créativité, intuition, formulation d’hypothèses originales — et si une IA peut, ou devrait, développer ces capacités.

2. Pourquoi est-ce difficile ? Limites des IA actuelles

Les modèles d’IA les plus avancés aujourd’hui, en particulier les grands modèles de langage (LLM), ont des capacités impressionnantes de traitement et de synthèse de données, mais présentent des limites bien documentées :

IA = base de données + modèles statistiques

Les systèmes actuels apprennent des corrélations dans d’énormes corpus de textes scientifiques et techniques, pas forcément des principes scientifiques profonds. Cela signifie qu’ils excellent pour prédire des réponses plausibles ou reformuler des connaissances existantes, mais ne démontrent pas encore une compréhension conceptuelle comparable à celle d’un chercheur humain.

Fiabilité et biais

Les IA « hallucinent » : elles peuvent générer des affirmations convaincantes mais incorrectes ou non fondées scientifiquement. Cette propension rend délicat leur usage pour produire de nouvelles connaissances sans supervision humaine.

La notion d’« hallucination »

Dans le contexte des grands modèles de langage (LLM), une hallucination désigne la production d’une information fausse, inventée ou non vérifiable, mais formulée de manière plausible et cohérente. Il ne s’agit pas d’une erreur aléatoire : le modèle génère la séquence de mots statistiquement la plus probable compte tenu de son entraînement, même lorsque les données pertinentes sont absentes ou contradictoires.
Autrement dit, l’IA optimise la vraisemblance linguistique, non la vérité scientifique.

Ce point est fondamental : un modèle de langage n’a pas d’accès direct au réel, ni de mécanisme interne garantissant la correspondance entre énoncé et état du monde.

Origine structurelle du problème

Les hallucinations ne sont pas un simple “bug”, mais une conséquence structurelle de l’architecture des modèles actuels :

  • Apprentissage par corrélations statistiques : ils apprennent des distributions de texte, pas des mécanismes causaux.
  • Absence de représentation stable de la vérité : ils ne distinguent pas intrinsèquement une hypothèse spéculative d’un fait établi.
  • Pression à produire une réponse : le modèle est conçu pour répondre, même en situation d’incertitude.
  • Manque de méta-cognition robuste : la capacité à signaler de manière fiable son propre degré d’ignorance reste imparfaite.

En science, où la rigueur repose précisément sur la distinction entre données, interprétation et hypothèse, cette faiblesse devient critique.

Biais incorporés dans les données d’entraînement

Outre les hallucinations, les IA héritent des biais présents dans les corpus qui les ont formées :

  • Biais disciplinaires : surreprésentation de certains champs scientifiques.
  • Biais géographiques et linguistiques : domination de publications anglophones.
  • Biais historiques : théories dépassées encore présentes dans les corpus.
  • Biais de publication : effet « file drawer », surreprésentation des résultats positifs.

Dans un contexte de production scientifique, ces biais peuvent influencer la formulation des hypothèses, la sélection des références, la hiérarchisation des explications possibles. Autrement dit, l’IA ne produit pas un savoir neutre : elle amplifie la structure du savoir existant.

Risques spécifiques pour la recherche scientifique

Dans un cadre de recherche avancée, plusieurs risques apparaissent, comme la fabrication de références plausibles mais inexistantes (ce que tout enseignant-chercheur a déjà remarqué en corrigeant les rapports d'étudiants ayant utilisé l'IA pour faire sa liste de références bibliographiques... Un collègue m'a dit un jour en 2025 : « Je me suis découvert de nouvelles publications scientifiques dans son rapport, de quoi enrichir mon CV de quelques publications... inexistantes ! Mais les intitulés correspondaient tout à fait un sujet du rapport et à mes recherches. »). Cela peut contaminer une bibliographie ou induire en erreur un lecteur non spécialiste.

Confusion entre corrélation et causalité

Les modèles peuvent proposer des relations séduisantes mais sans fondement mécanistique.

Les modèles d’IA apprennent des régularités statistiques dans les données : ils identifient que deux variables apparaissent fréquemment ensemble, mais cela ne signifie pas qu’ils comprennent le mécanisme reliant l’une à l’autre.
Or, en science, une corrélation — même robuste — ne suffit pas à établir un lien causal.

Un modèle peut ainsi proposer une relation plausible parce qu’elle est statistiquement fréquente dans les corpus (ou dans les données d’entraînement), sans être capable d’évaluer  l’existence de variables confondantes, la direction du lien (cause → effet ou effet → cause), la présence d’un mécanisme physique, biologique ou chimique sous-jacent.

Dans des domaines complexes comme les systèmes climatiques ou océaniques, où de multiples forçages interagissent, cette limitation est particulièrement critique : une relation séduisante sur le plan statistique peut masquer une dynamique indirecte ou émergente. Sans cadre théorique explicite ni raisonnement mécanistique, l’IA peut donc produire des explications cohérentes en apparence, mais scientifiquement fragiles.

Sur-interprétation de données et  uniformisation des raisonnements

L’IA peut produire une interprétation cohérente sans signaler l’incertitude ou l’insuffisance des données.

En s’appuyant sur les tendances dominantes du corpus, l’IA peut réduire la diversité des approches théoriques. Dans un domaine comme les géosciences marines ou la paléoclimatologie — où l’interprétation repose sur des chaînes d’inférences complexes, des incertitudes stratigraphiques et des cadres conceptuels évolutifs — cette limite est particulièrement sensible.

Jugement scientifique

La science ne se résume pas à appliquer des méthodes systématiques : elle repose sur la formation de questions pertinentes, l’évaluation des hypothèses, l’interprétation des résultats dans leur contexte, et la capacité à détecter ce qui ne va pas.

Cette qualité de jugement reste difficile à formaliser et à mesurer chez une IA.

Autrement dit : le jugement scientifique ne se réduit pas à l’application correcte d’un protocole ou à l’exécution d’une analyse statistique. Il implique une série d’opérations intellectuelles situées et hiérarchisées :

  • choisir une question pertinente parmi une multitude de possibilités,
  • évaluer la plausibilité relative de plusieurs hypothèses concurrentes,
  • interpréter un résultat en tenant compte des incertitudes méthodologiques,
  • et reconnaître les limites d’un jeu de données.

Ce jugement mobilise plusieurs dimensions difficiles à formaliser :

La hiérarchisation des explications : toutes les hypothèses compatibles avec les données ne se valent pas. Le scientifique mobilise un cadre théorique, des connaissances tacites et une expérience disciplinaire pour trier.
La détection d’anomalies : identifier qu’un résultat “ne colle pas” (artefact analytique, biais d’échantillonnage, erreur instrumentale) suppose une compréhension fine du système étudié et de la chaîne de production des données. Un recul spécifique que ne peut avoir l'IA (tels que sont conçus les LLM à l'heure actuelle).
Le sens de la proportion et de l’incertitude : savoir quand un signal est robuste, quand il est marginal, ou quand il est prématuré de conclure repose sur une réflexion interprétative que la machine n'est pas (encore ?) en mesure de produire. 
La contextualisation historique et disciplinaire : replacer un résultat dans l’état de l’art, distinguer une vraie rupture conceptuelle d’une variation mineure est encore un point de l'IA n'a pas en mesure de comprendre et d'intégrer. L'IA ne réfléchit pas au sens humain du terme. 

Chez les IA actuelles, ces capacités sont difficiles à mesurer car elles ne disposent ni d’une expérience incarnée de la recherche, ni d’un ancrage direct dans les pratiques expérimentales. Elles peuvent reproduire des formes de raisonnement scientifique, mais il reste incertain, voire improbable, qu’elles possèdent un véritable mécanisme d’évaluation critique interne, c’est-à-dire la capacité à douter de leurs propres inférences sur la base d’un cadre conceptuel cohérent.

Vers des critères pour évaluer une IA “scientifique”

Pour répondre à la question « Quand saurons-nous qu’une IA est assez intelligente pour faire de la science ? » l’article de Science s’appuie sur des efforts visant à définir des benchmarks et des tâches tests plus structurés :

Une approche consiste à concevoir ensembles de tâches scientifiques (questions de physique, biologie, mathématiques) qui exigent non seulement des connaissances stockées, mais un raisonnement scientifique authentique.

Ces benchmarks peuvent servir à comparer les capacités des IA à des niveaux humains ou experts dans des domaines spécifiques.

D’autres chercheurs proposent l’idée de tests plus conceptuels (proche d’un Turing test scientifique) où l’IA doit formuler une hypothèse originale à partir de données brutes, proposer des expériences ou des stratégies de test, interpréter les résultats, expliquer les conclusions de manière justifiée.

L’équilibre entre IA et recherche scientifique humaine

L’article souligne plusieurs points importants quant à la place que peut occuper l’IA dans les processus scientifiques :

Assistance vs autonomie

À court et moyen terme, les IA sont surtout utiles pour accélérer les tâches scientifiques : tri de littérature, génération d’hypothèses, simulations, extraction de données. Cela peut augmenter l’efficacité des chercheurs et ouvrir de nouvelles pistes d’investigation, mais n’implique pas que l’IA produise de nouvelles connaissances de façon indépendante.

Le rôle des chercheurs 

Même les systèmes les plus avancés nécessitent des scientifiques pour interpréter, guider et valider leurs résultats. La science n’est pas seulement une série d’opérations logiques sur des données ; elle est une activité humaine impliquant créativité, valeurs épistémiques, intuition, et jugement critique.

Implications et débats plus larges

Enfin, l’article situe cette question dans un débat plus large sur l’intelligence artificielle et sa relation à la cognition humaine :

  • Intelligence vs automatisation : une IA peut accomplir des tâches complexes semblant intellectuelles, mais cela ne signifie pas qu’elle possède une intelligence au sens humain du terme. Les systèmes actuels sont surtout des outils d’automatisation sophistiqués. 
  • Critères à formuler : pour déterminer si une IA est réellement “faire de la science”, il faut des critères clairs portant sur l’originalité, la compréhension conceptuelle et la capacité à justifier ses propres démarches scientifiques, pas seulement sur la performance à exécuter des tâches.

Conclusion

L’article met en lumière qu'aucune IA actuelle n’est encore vraiment “capable de faire de la science” au sens où un scientifique le ferait de manière autonome. Les progrès sont indéniables, mais les défis conceptuels(jugements, créativité, capacité à générer et à tester de nouvelles hypothèses) restent majeurs.

La question de savoir quand (et si) une IA pourra véritablement mener une démarche scientifique autonome dépend de la définition que l’on donne à l’intelligence scientifique, et de notre capacité à concevoir des tests qui mesurent plus que la simple optimisation algorithmique.

 

Cet article ouvre une série consacrée aux transformations de la recherche scientifique à l’ère de l’intelligence artificielle.
Dans les prochains volets, nous explorerons plus concrètement ce que l’IA change — ou ne change pas — dans des domaines comme l’océanographie, la modélisation climatique et la formation des chercheurs.

Références Bibliographiques