L'IA et la Science : un outil pour les géosciences marines ?

Mardi 10 mars 2026

Bonjour à toutes et à tous et Bienvenue !

Aujourd'hui, Terres du Passé vous propose de discuter d'un thème suscitant beaucoup de débats et de réflexions dans tous les domaines, mais également en Science : l'usage de l'Intelligence Artificielle (IA).

Pour cela, reprenons par étapes ce que dit le site web de la revue Science dans l'article : How will we know if AI is smart enough to do science, par Celina Zhao - en y incorporant des liens avec l'océanographie.

1. Problématique principale

L’article explore une question simple mais fondamentale : comment évaluer de façon rigoureuse si une intelligence artificielle (IA) est capable de « faire de la science » de manière autonome, c’est-à-dire pas seulement d’assister des scientifiques, mais de conduire un raisonnement scientifique complet qui mène à des découvertes nouvelles.

Le débat ne porte pas seulement sur les évolutions techniques des IA actuelles, mais sur la nature même de la science — créativité, intuition, formulation d’hypothèses originales — et si une IA peut, ou devrait, développer ces capacités.

2. Pourquoi est-ce difficile ? Limites des IA actuelles

Les modèles d’IA les plus avancés aujourd’hui, en particulier les grands modèles de langage (LLM), ont d'énorme capacités de traitement et de synthèse de données, mais présentent des limites bien documentées.

Les systèmes actuels apprennent des corrélations dans d’énormes corpus de textes scientifiques et techniques, pas forcément des principes scientifiques profonds. Cela signifie qu’ils excellent pour prédire des réponses plausibles ou reformuler des connaissances existantes, mais ne démontrent pas (encore ?) une compréhension conceptuelle comparable à celle d’un chercheur humain.

Fiabilité et biais

Les IA « hallucinent » : elles peuvent générer des affirmations convaincantes mais incorrectes ou non fondées scientifiquement. Cette propension rend délicat leur usage pour produire de nouvelles connaissances sans supervision humaine.

La notion d’« hallucination »

Dans le contexte des grands modèles de langage (LLM), une hallucination désigne la production d’une information fausse, inventée ou non vérifiable, mais formulée de manière plausible et cohérente. Il ne s’agit pas d’une erreur aléatoire : le modèle génère la séquence de mots statistiquement la plus probable compte tenu de son entraînement, même lorsque les données pertinentes sont absentes ou contradictoires.
Autrement dit, l’IA optimise la vraisemblance linguistique, non la vérité scientifique.

Ce point est fondamental : un modèle de langage n’a pas d’accès direct au réel, ni de mécanisme interne garantissant la correspondance entre énoncé et état du monde.

Origine structurelle du problème

Les hallucinations ne sont pas un simple “bug”, mais une conséquence structurelle de l’architecture des modèles actuels :

Apprentissage par corrélations statistiques : ils apprennent des distributions de texte, pas des mécanismes causaux (l'IA n'a pas (encore ?) la capacité de comprendre qu'une cause amène un effet, même si elle peut apprendre que certaines causes induisent certains effets, sans en comprendre le fonctionnement).
Absence de représentation stable de la vérité : ils ne sont pas en mesure de distinguer une hypothèse spéculative d’un fait établi, et vont donc les utiliser dans leurs réponses avec le même niveau de "vérité".

Prenons un exemple parlant :

Je me mets en navigateur privé et j'ouvre ChatGPT sans me connecter, ce qui me permet d'être dans une version sans aucun des pré-prompts que je lui ai appris. Je lui pose alors la question :

« Dis en une seule phrase courte ce qui a provoqué la disparition des dinosaures. »

Sa réponse :

« La disparition des dinosaures est liée à l’impact d’un astéroïde lors de l’extinction Crétacé-Paléogène, aggravé par les immenses éruptions volcaniques des Trapps du Deccan qui ont fortement perturbé le climat. »

Si sa réponse n'est pas fausse, elle comprend une hypothèse qui ne fait pas encore consensus dans la communauté scientifique (même si sa validité est plus probable) : celle selon laquelle les Trapps du Deccan aient contribué de manière significative à l'extinction des dinosaures.

Or, ce qui est validé par la communauté scientifique internationale, le fait établi, c'est que l'extinction massive survenue il y a environ 66 millions d’années correspond à l’impact d’un astéroïde dont la trace se trouve au large de la péninsule du Yucatan : le cratère de Chicxulub.

Pourquoi ? Parce qu'il y a plusieurs indices, des preuves géologiques, qui attestent des conséquences brutales et violentes de cet impact sur la Terre entière :

Une couche enrichie en iridium à la limite Crétacé-Tertiaire (cette couche se retrouve par exemple dans les flyschs du Pays Basque sous la forme d'une limite noire de quelques centimètres d'épaisseur, notamment au site de Bidart),
La présence de quartz choqués (les quartz sont des minéraux dont la maille cristalline forme un réseau homogène et uniforme, et les quartz choqués présentent une maille cristalline faillée, donc à l'échelle moléculaire) et de microtectites (ce sont des petites sphérules de roche (vraiment la forme de billes) qui ont fondu de façon brutale après avoir atteint l'état de roche),
La datation du cratère correspondant à l’âge de l’extinction.

Concernant l'éruption volcanique ayant donné les Trapps du Deccan, l'incertitude de datation de cette irruption ne permet pas de dire si elle s'est produite avant l'impact, en même temps, ou à la suite de l'impact, comme une conséquence de la violence du choc.

Le LLM ne possède pas une représentation de la hiérarchie du degré de preuve scientifique. Il reproduit surtout des formulations fréquemment rencontrées dans les textes. Enfin, la formulation "limite Crétacé-Paléogène" n'est pas la plus fréquemment utilisée en français : on va davantage parler de limite Crétacé-Tertiaire, ou limite K-T.

Pression à produire une réponse : le modèle est conçu pour répondre, même en situation d’incertitude.
Manque de méta-cognition robuste : la capacité à signaler de manière fiable son propre degré d’ignorance reste imparfaite.

En science, où la rigueur repose précisément sur la distinction entre données, interprétation et hypothèse, cette faiblesse devient critique.

Biais incorporés dans les données d’entraînement

Outre les hallucinations, les IA héritent des biais présents dans les corpus qui les ont formées :

Biais disciplinaires : surreprésentation de certains champs scientifiques.
Biais géographiques et linguistiques : domination de publications anglophones.
Biais historiques : théories dépassées encore présentes dans les corpus.
Biais de publication : effet « file drawer », surreprésentation des résultats positifs.

Dans un contexte de production scientifique, ces biais peuvent influencer la formulation des hypothèses, la sélection des références, la hiérarchisation des explications possibles. Autrement dit, l’IA ne produit pas un savoir neutre : elle amplifie la structure du savoir existant.

Risques spécifiques pour la recherche scientifique

Dans un cadre de recherche avancée, plusieurs risques apparaissent, comme la fabrication de références plausibles mais inexistantes (ce que tout enseignant-chercheur a déjà remarqué en corrigeant les rapports d'étudiants ayant utilisé l'IA pour faire sa liste de références bibliographiques... Un collègue m'a dit un jour en 2025 : « Je me suis découvert de nouvelles publications scientifiques dans son rapport, de quoi enrichir mon CV de quelques publications... inexistantes ! Mais les intitulés correspondaient tout à fait un sujet du rapport et à mes recherches. »). Cela peut contaminer une bibliographie ou induire en erreur un lecteur non spécialiste.

Confusion entre corrélation et causalité

Les modèles peuvent proposer des relations séduisantes mais sans fondement mécanistique.

Les modèles d’IA apprennent des régularités statistiques dans les données : ils identifient que deux variables apparaissent fréquemment ensemble, mais cela ne signifie pas qu’ils comprennent le mécanisme reliant l’une à l’autre.
Or, en science, une corrélation — même robuste — ne suffit pas à établir un lien causal.

Un modèle peut ainsi proposer une relation plausible parce qu’elle est statistiquement fréquente dans les corpus (ou dans les données d’entraînement), sans être capable d’évaluer l’existence de variables confondantes, la direction du lien (cause → effet ou effet → cause), la présence d’un mécanisme physique, biologique ou chimique sous-jacent.

Dans des domaines complexes comme les systèmes climatiques ou océaniques, où de multiples forçages interagissent, cette limitation est particulièrement critique : une relation séduisante sur le plan statistique peut masquer une dynamique indirecte ou émergente. Sans cadre théorique explicite ni raisonnement mécanistique, l’IA peut donc produire des explications cohérentes en apparence, mais scientifiquement fragiles.

Sur-interprétation de données et uniformisation des raisonnements

L’IA peut produire une interprétation cohérente sans signaler l’incertitude ou l’insuffisance des données.

En s’appuyant sur les tendances dominantes du corpus, l’IA peut réduire la diversité des approches théoriques. Dans un domaine comme les géosciences marines ou la paléoclimatologie — où l’interprétation repose sur des chaînes d’inférences complexes, des incertitudes stratigraphiques et des cadres conceptuels évolutifs — cette limite est particulièrement sensible.

Jugement scientifique

La science ne se résume pas à appliquer des méthodes systématiques : elle repose sur la formation de questions pertinentes, l’évaluation des hypothèses, l’interprétation des résultats dans leur contexte, et la capacité à détecter ce qui ne va pas.

Cette qualité de jugement reste difficile à formaliser et à mesurer chez une IA.

Autrement dit : le jugement scientifique ne se réduit pas à l’application correcte d’un protocole ou à l’exécution d’une analyse statistique. Il implique une série d’opérations intellectuelles situées et hiérarchisées :

choisir une question pertinente parmi une multitude de possibilités,
évaluer la plausibilité relative de plusieurs hypothèses concurrentes,
interpréter un résultat en tenant compte des incertitudes méthodologiques,
et reconnaître les limites d’un jeu de données.

Ce jugement mobilise plusieurs dimensions difficiles à formaliser :

La hiérarchisation des explications : toutes les hypothèses compatibles avec les données ne se valent pas. Le scientifique mobilise un cadre théorique, des connaissances tacites et une expérience disciplinaire pour trier.
La détection d’anomalies : identifier qu’un résultat “ne colle pas” (artefact analytique, biais d’échantillonnage, erreur instrumentale) suppose une compréhension fine du système étudié et de la chaîne de production des données. Un recul spécifique que ne peut avoir l'IA (tels que sont conçus les LLM à l'heure actuelle).
Le sens de la proportion et de l’incertitude : savoir quand un signal est robuste, quand il est marginal, ou quand il est prématuré de conclure repose sur une réflexion interprétative que la machine n'est pas (encore ?) en mesure de produire.
La contextualisation historique et disciplinaire : replacer un résultat dans l’état de l’art, distinguer une vraie rupture conceptuelle d’une variation mineure est encore un point de l'IA n'a pas en mesure de comprendre et d'intégrer. L'IA ne réfléchit pas au sens humain du terme.

Chez les IA actuelles, ces capacités sont difficiles à mesurer car elles ne disposent ni d’une expérience incarnée de la recherche, ni d’un ancrage direct dans les pratiques expérimentales. Elles peuvent reproduire des formes de raisonnement scientifique, mais elles ne possèdent pas un véritable mécanisme d’évaluation critique interne, c’est-à-dire la capacité à douter des affirmations qu'elles émettent sur la base d’un cadre conceptuel cohérent.

Vers des critères pour évaluer une IA “scientifique”

Pour répondre à la question « Quand saurons-nous qu’une IA est assez intelligente pour faire de la science ? » l’article de Science s’appuie sur des efforts visant à définir des benchmarks et des tâches tests plus structurés : une approche consiste à concevoir un ensemble de tâches scientifiques (questions de physique, biologie, mathématiques) qui exigent non seulement des connaissances stockées, mais un raisonnement scientifique authentique.

Ces benchmarks peuvent servir à comparer les capacités des IA à des niveaux humains ou experts dans des domaines spécifiques.

D’autres chercheurs proposent l’idée de tests plus conceptuels (proche d’un test de Turing scientifique) où l’IA doit formuler une hypothèse originale à partir de données brutes, proposer des expériences ou des stratégies de test, interpréter les résultats, expliquer les conclusions de manière justifiée.

L’équilibre entre IA et recherche scientifique humaine

L’article souligne plusieurs points importants quant à la place que peut occuper l’IA dans les processus scientifiques :

Assistance vs autonomie

À court et moyen terme, les IA sont surtout utiles pour accélérer les tâches scientifiques : tri de littérature, simulations, extraction de données. Cela peut augmenter l’efficacité des chercheurs et ouvrir de nouvelles pistes d’investigation, mais n’implique pas que l’IA produise de nouvelles connaissances de façon indépendante.

Le rôle des chercheurs

Même les systèmes les plus avancés nécessitent des scientifiques pour interpréter, guider et valider leurs résultats. La science n’est pas seulement une série d’opérations logiques sur des données ; elle est une activité humaine impliquant créativité, valeurs épistémiques, intuition, et jugement critique.

Implications et débats plus larges

Enfin, l’article situe cette question dans un débat plus large sur l’intelligence artificielle et sa relation à la cognition humaine :

Intelligence vs automatisation : une IA peut accomplir des tâches complexes semblant intellectuelles, mais cela ne signifie pas qu’elle possède une intelligence au sens humain du terme. Les systèmes actuels sont surtout des outils d’automatisation sophistiqués.
Critères à formuler : pour déterminer si une IA est réellement « faire de la science », il faut des critères clairs portant sur l’originalité, la compréhension conceptuelle et la capacité à justifier ses propres démarches scientifiques, pas seulement sur la performance à exécuter des tâches.

Conclusion

L’article met en lumière qu'aucune IA actuelle n’est pas « capable de faire de la science » au sens où un scientifique le ferait de manière autonome. Les progrès sont indéniables, mais les défis conceptuels (jugements, créativité, capacité à générer et à tester de nouvelles hypothèses) restent majeurs.

La question de savoir quand (et si) une IA pourra véritablement mener une démarche scientifique autonome dépend de la définition que l’on donne à l’intelligence scientifique, et de notre capacité à concevoir des tests qui mesurent plus que la simple optimisation algorithmique.

Références Bibliographiques