oulipo & ia

Ceci est un lipogramme en I.A.

L’intelligence artificielle est là. Peut-être même derrière ces mots. Cet assistant qui nous aide, cette machine qui nous dépossède. La création n’est plus notre jardin à cultiver, notre territoire à explorer. L’hégémonie humaine va peut-être cesser. Cette drôle d’espèce sans croc ni venin, au sommet de la chaîne alimentaire, réduite enfin à sa condition animale. Une leçon d’humilité pour l’humanité.

Pourtant, malgré les prix Nobel de chimie ou les médailles d’or de mathématiques des IAs, quelque chose d’étonnant lui résiste. Non pas la démonstration d’une grande conjecture, qui comme toute grande conjecture résiste heureusement encore, pour ce qui reste d’honneur de l’esprit humain. Non, il ne s’agit pas de quelque chose que seuls les plus érudits peuvent énoncer ou comprendre. Nul besoin d’invoquer Einstein ou Grothendieck pour un salut qui ne saurait être que temporaire.

Il s’agit de l’écriture sous contrainte. Jouer avec les lettres et les mots. Et voilà qu’un écolier suffit à nous sauver. Si vous doutez à qui vous parlez, demandez- lui un lipogramme en “e” pour raconter la théorie de la relativité générale. Tout humain vous rira au nez ou au moins vous demandera de répéter. Mais pas ChatGPT.

Derrière ce test de Turing revisité se cache une vérité à laquelle les modèles de langues actuels auront bien du mal à échapper.

Ces modèles, dits de langue donc,consomment et produisent des mots, comme nous. Et comme nous, ils génèrent un texte conditionnellement au texte déjà consommé. La première étape est de transformer le texte en vecteur, c’est-à-dire en suite de nombres. Le reste est purement mathématique jusqu’à la dernière étape qui traduira en sens inverse, un vecteur en texte. Cette transformation de texte en vecteur est plus subtile qu’on pourrait l’imaginer de prime abord. Considérer tous les mots d’une langue, avec toutes leurs variations et déclinaisons, ou à l’inverse se limiter à l’alphabet, conduirait à des séquences numériques trop longues ou des espaces de représentations trop grands pour la mémoire de nos ordinateurs et peu efficaces sur le plan algorithmique.

C’est le rôle du “jetonneur” de déterminer la décomposition optimale du langage en unités atomiques, les jetons, de manière à représenter chacune de ces unités par un nombre, donc par une dimension dans le modèle. Cette décomposition du langage n’est pas sémantique ou linguistique, n’en déplaise à Chomsky, mais purement statistique. Les unités ne correspondent pas à des phonèmes, elles sont apprises à partir d’un corpus. Ainsi “Anton Voyl n’arrivait pas à dormir” sera par exemple décomposée en (Anton, Voy, l, n’, arriv, ait, pas, à, dorm, ir).

N’étant plus à un anthropomorphisme près, on peut dire que ces modèles n’ont pas de notion intrinsèque de structure d’un mot, ni syntaxique ni morphologique, et apprennent uniquement à prédire des séquences de jetons.

Et voilà pourquoi ces modèles ne peuvent pas compter le nombre de “r” dans “fraise” ni faire des boules de neiges ou des beaux présents. On ne peut pas en dire autant des exercices de style ou des tentatives d’épuisement, mais quand toute création littéraire sera bientôt un lipogramme en IA, l’OuLiPo vaincra!