La guerre des mots: comment les machines traitent le texte

Il y quelques mois, l’entreprise américaine OpenAI a mis le feu aux poudres dans la communaute du Machine Learning. L’annonce des résultats impressionnants d’un generateur de texte automatique s’est accompagnée du refus de publier le modèle publiquement, de peur de son utilisation malicieuse. Cette recherche fructueuse découle directement de grandes avancées récentes dans le domaine du traitement automatique de texte. Malgre la décision de garder le modèle sous embargo, solution qu’on pourrait qualifier d’au mieux paliative, elle souligne une prise de conscience des potentielles dérives des methodes developpées par les chercheurs en machine learning, de plus en plus puissantes et efficaces, et du rôle accru que ces derniers doivent prendre dans le contrôle de ces dérives.

 

Le langage: une question de statistiques ou une grammaire universelle?

 

You shall know a word by the company it keeps. – J.R. Firth (1954)

 

En tant qu’outil d’expression humain, le langage renferme de nombreuses subtilités et ambiguïtés, rendant sa modélisation formelle extrêmement difficile. Un immmense corpus de recherche en linguistique a produit des théories de la grammaire, de son utilisation et de son emergence, de sa relation avec les modes de pensée humains. Pourtant, ce travail minutieux et rigoureux peine à modeliser l’expression humaine dans sa forme courante, quotidienne, en évolution perpétuelle. Elle se prend les pieds dans le tapis à vouloir traiter les cas particuliers, idiosyncrasies et subtilités linguistiques.

 

Malgré la richesse lexicale et les combinaisons quasi-infinies qu’offrent la grammaire, le langage quotidien revèle une regularité impressionante. Par exemple, la loi de Zipf, observée dans les années 50 montre que la fréquence d’un mot est inversement proportionelle à sa popularite. En d’autres termes, le deuxième mot le plus utilisé est deux fois moins fréquent que le plus commun, le troisième l’est trois fois moins, et caetera … Le travail d’autres linguistes influents, comme J.R. Firth ou Ludwig Wittgenstein, partisans de l’étude des régularités linguistiques plutôt que du développement d’une grammaire universelle, défendue par Noam Chomsky, continue toujours d’influencer les théories et modèles du langages actuels.

 

La loi de Zipf (1950) appliquée à Wikipedia

 

Un modèle du langage

 

L’observation de cette régularité a motivé le traitement probabilistique du texte: en observant les propriétes statistiques d’une expression, il est possible d’en estimer les characteristiques. Un modèle intuitif du langage consiste a déterminer la probabilité d’un mot étant donne son contexte, souvent composé des mots qui le précède. Ce modele prédictif est en adequation avec notre capacité a finir des phrases par exemple.

 

Cette formulation est qualifiée de “language model”. Formellement, il s’agit de déterminer, parmi tous les mots possibles, quel mot est le plus probable étant donne le contexte dans lequel il est utilisé. Comme à leur habitude, pour estimer ces probabilités, les modèles de machine learning apprennent d’exemples. Avec assez d’exemples, un modèle est capable de construire sequentiellement une phrase correcte avec assez de confiance pour être crédible.

 

Le modèle GPT-2 et ses implications

 

Dans cette même veine, les qualités génératives de GPT-2, le nom du modèle dernier cri, relèvent plus de la qualité des données sur lesquelles l’algorithme apprend que d’une architecture novatrice. Il a été entrainé sur un corpus de 8M de pages Web, issues de sources diverses, de Reddit à Wikipedia.

 

 

A première vue les résultats sont plutôt impressionants, avec la création de textes assez cohérents dans l’ensemble, même sur des durées relativement longues, une tâche à la difficulté notoire dans la communauté scientifique. Alors est-ce la fin du journalisme? Peut-on donner un titre à l’algorithme qui s’occupera de générer article sur article, noyant l’internet sous les fake news et communiqués de presse robotiques?

 

Comme souvent la réalité est plus subtile. S’il existe bien un risque dans la mise en libre service de technologies qui permettraient la création à grande échelle de faux contenus crédibles, GPT-2 n’est pas encore dans cette veine. À y regarder de plus, près, la cohérence n’est que superficielle: aucune compréhension de relations plus complexes que des statistiques de co-occurences contextuelles. Par exemple, il semble difficile de croire en des licornes à .. quatre cornes?

 

The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science.

 

De plus, la réticence à rendre disponible le modèle en lui-même ouvre une question plus globale sur les avancées scientifiques dans des domaines aux coûts calculs prohibitifs. Traditionnellement, les modèles pré-entraînés sont mis à disposition de la communauté scientifique, accompagnés d’un article détaillant la méthode. La communauté se charge alors de valider les résultats, si possible en répliquant les résultats.

 

Ce mode de travail devient de plus en plus difficile économiquement  (le processus d’optimisation de GPT-2 a coûté plusieurs millions de dollars), sans compter les complexités liées à la propriété intellectuelle (ces modèles deviennent de veritables avantages compétitifs). Dans un moment où la recherche est dominée par les industriels plutôt que les académiques, l’opacité des résultats fait tâche. Preuve en est, OpenAI a préféré communiquer ce résultat par voie de presse, pour une annonce coordonnée et sous embargo journalistique, plutôt que de la partager avec la communauté scientifique. Les titres sensationalistes et la surprise totale de la communauté de recherche face à ce resultat a mis le feu aux poudres.

 

Avec un peu de recul …

 

Quelques mois après son annonce, GPT-2 ne semble pas avoir causé de grand chamboulement dans la création de faux contenus. Pour autant il a clairement lancé la discussion sur les modes de communication dans la science et la responsabilité que peuvent porter les créateurs de ces technologies. Malgré tout, aucune réponse unifiée ne semble en être sortie, malgré le sentiment d’une prise de conscience, reste à voir si les acteurs les plus concernés répondront à l’appel.

 

Quelques initiatives artistiques ont elles vu le jour basées sur cette technologie, par exemple le subreddit “This story does not exist” qui propose des histoires générées par GPT-2. Au-delà, les implications on été limitées. Il semblerait qu’encore une fois, l’outil ne soit qu’au service de l’intention. Bien que certains tentent désormais de trouver des solutions algorithmiques pour détecter les faux textes, comme les images modifiées ou les vidéos générées artificiellement, une solution complète ne saurait se soustraire à la considération du système dans son entièreté.

 

Lorsqu’on parle des techonologies qui permettraient des actions néfastes, nous devons considérer le système qui les incite. Par exemple, les fake news, dont la perspective était la première motivation à l’embargo du modèle GPT-2, existent pour deux raisons prinicpales: une motivation économique, produit de l’economie d’attention, que la controverse stimule, et une motivation ideologique, combat éternel du pouvoir pris ou à prendre. Alors, il semble futile s’attaquer aux outils sans confronter les systèmes qui les nourrissent.

La propriété intellectuelle à l’ère du machine learning

Au sens philosophique, la filiation créative d’une oeuvre générée par une intelligence artificielle est difficile à définir. Cette notion est aussi épineuse dans le cadre légal. Certaines spécificités des algorithmes de machine learning posent de nouvelles questions au sujet de la protection de la propriété intellectuelle qu’ils représentent et des productions que ces modèles génèrent.

 

Présent jusque dans la Déclaration Universelle des Droits de l’Homme (art 27), le droit à la propriété intellectuelle sert de liant pour nos penchants innovateurs. Traditionnellement le repère d’avocats chevronnés au jargon complexe, il est pourtant garant d’une grande partie des inventions qui nous entourent. Derrière les subtilités légales et techniques se cache un cadre protecteur de l’inventeur, et, parfois, du consommateur. Souvent astreint à la jalouse protection de secrets industrielles, le droit de la propriété intellectuelle sert aussi à encadrer des pratiques plus collaboratives comme le logiciel libre ou le partage de créations vers le domaine public.

 

Toute personne a le droit de prendre part librement à la vie culturelle de la communauté, de jouir des arts et de participer au progrès scientifique et aux bienfaits qui en résultent. 

Déclaration Universelle des Droits de l’Homme (article 27)

 

Pour faire valoir ses droits, un inventeur ou créateur dispose de trois grands mécanismes. Le trademark ™ sert à protéger l’image d’un produit reconnaissable, une marque. Le consommateur y trouve un gage de qualité. Le copyright ©, lui, permet d’expliciter les conditions d’utilisation d’une invention. Il peut limiter les usages à son inventeur seul, ou être plus permissif, comme pour certaines licenses open-source.

 

Enfin, le brevet permet l’octroi temporaire d’un monopole d’exploitation sur une invention. Une fois le brevet octroyé, il est courant de le rendre public puisque la loi protègera contre l’utilisation indue de cette propriété intellectuelle. Pour obtenir ce fameux brevet, une demande est déposée. Un office de l’innovation jugera de la qualité et de la nouveauté que représente cette invention pour décider de son octroi.

 

La spécificité d’un modèle ne se trouve pas dans les blocs constituants

 

La demande de brevet nécessite une description particulièrement détaillée du fonctionnement de l’invention. Dessins techniques et diagrammes d’analyse systémique y sont monnaie courante. Dans le cas d’une machine ayant une extension physique, la description est souvent aisée. Pour un algorithme en revanche, les choses peuvent se compliquer. Quelles sont les cotations, quel est le processus de fabrication? Sous les législations actuelles, un algorithme ou une formule mathématique seuls ne peuvent faire l’objet d’un brevet. Pour rendre le tout brevetable il faut justifier l’utilisation dans un contexte particulier, une utilisation propre à l’entreprise industrielle.

 

Dessin Technique d’un bras de robot (Brevet US4806066A)

 

 

Cette définition prend du sens dans le cadre des modèles de machine learning. Ces modèles sont souvent explicités sous la forme d’une quantité que l’on cherche à optimiser sous certaines contraintes, par exemple une erreur de classification. Des leviers ou paramètres sont offerts à un algorithme d’optimisation, qui est alors chargé de trouver les réglages qui satisferont au mieux cette contrainte pour obtenir le modèle recherché. Tel un cuisinier automatique, l’algorithme va chercher la meilleure combinaison possible des ingrédients à disposition pour obtenir le plat désiré. Ce sont alors les proportions obtenues, la recette optimale, qui peuvent être brevetées, mais pas la formule qui permet de les obtenir.

 

Il faut néanmoins noter que les paramètres obtenus dépendent intrinsèquement des “ingrédients” qui ont été fournis pour l’apprentissage. Pour reprendre l’image du Portrait d’Edmond Bellamy, la formule a été optimisée pour trouver une combinaison de tableau anciens, ce qui a donné le tableau final. Néanmoins, on pourrait donner à la même formule des images de chats, obtenant ainsi un modèle aux paramètres optimisés pour produire des images félines. Ces deux modèles sont très différents mais sont issus de la même formule générale. Ce sont les données qui ont fait la différence dans l’obtention du modèle final.

 

Photos de chats générées par un GAN (Alexia Jolicoeur-Martineau)

 

Là se trouve la clef de la propriété intellectuelle dans le domaine du machine learning. Des entreprises comme Google ou Facebook n’ont aucun mal à partager les équations qui régissent ces modèles, car en l’absence des massives collections de données, jalousement gardés, leur propriété intellectuelle est saine et sauve. Il est absolument critique pour ces entreprises d’obtenir des jeux de données massifs et détaillés, puisqu’ils sont les clefs de voûte de modèles efficaces. A noter que ces données ne peuvent faire l’objet d’un copyright que si elles sont structurées, manipulées ou traitées spécifiquement.

 

Au vu de l’enjeu économique que représente le machine learning, beaucoup d’entreprises profitent de lois protectionnistes sur les secrets industriels. Au contraire du brevet, le secret industriel (ou “trade secret”) ne nécessite pas de rendre public le fonctionnement de l’invention. Cette pratique est souvent appliquée aux jeux de données collectés par ces entreprises, mais pose des questions de transparence, d’éthique, et d’adéquation avec la méthode scientifique, qui repose sur la communication ouverte du savoir.

 

En effet il est extrêmement difficile de connaître l’étendue des pratiques de collections de données, que l’on sait pourtant intensives, ou de leur utilisation par des entreprises. Si les révélations autour des pratiques douteuses de groupes comme Facebook ont attiré l’attention des politiques sur la question, seule l’Union Européenne a adopté des régulations limitant le droit au secret industriel dans le cadre de la manipulation des données personnelles.

 

Quand bien même la collection et l’utilisation des données serait plus transparente, il manque encore de nombreux outils pour évaluer l’impact macroscopique des ces modèles et de leurs décisions automatisées. A un niveau microscopique aussi, il reste à comprendre exactement comment rendre ces modèles plus robustes, et interpréter correctement la manière dont ils apprennent et produisent des prédictions. Ces deux échelles devront nécessairement coopérer, au niveau technique comme au niveau politique, pour obtenir un impact économique comme social positif.

 

Une fois l’algorithme entraîné, à qui appartient sa production?

 

Dans un précédent article, nous avons discuté de la difficulté de définir la filiation artistique d’une oeuvre générée par un modèle de machine learning. Cette question se pose évidemment au-delà de la sphère artistique. Si le précédent débat gravitait majoritairement autour de l’aspect philosophique de la création, pour beaucoup d’entreprises cette question est vite dominée par la question financière et légale.

 

En 2011, le photographe anglais David Slater se rend en Indonésie pour photographier une espèce de macaque en voie de disparition. Pour éviter de brusquer ces singes craintifs, le photographe installe son appareil en laissant les singes jouer avec le déclencheur. Il obtient ainsi des “selfies” pris par les animaux. A son retour, il tente vendre ces clichés, déclenchant une polémique sur leur attribution: le singe peut-il avoir des droits sur le cliché ou sont-ils l’oeuvre du photographe? Après un long débat, le bureau du Copyright américain a statué qu’un créateur non-humain n’étant pas une personne juridique, et ne pouvait donc pas obtenir les droits sur la création.

 

Selfie de Macaque (Indonésie, 2011)

 

Cette décision remet clairement en cause le copyright pour des oeuvres générées par ordinateur, y compris par une intelligence artificielle. Le droit des logiciels, dont la question s’est posée dans les années 80-90, offre une réponse partielle. Les créateurs doivent produire des licenses explicitant le transfert des droits d’utilisation des modèles développés vers l’utilisateur. Cette condition est standardisée pour les logiciels. Alors les modèles, comme les programmes informatiques, sont considérés comme des outils pour l’utilisateur, qui est alors libre de demander les droits sur les créations qui en sont issues. Pour ce faire, il devra remplir les mêmes conditions d’unicité et d’innovation que pour tout autre oeuvre artistique ou technique.

 

Ces conditions restent pourtant floues: comment juger de l’intention de l’artiste? Un créateur peut-il revendiquer toutes les créations qui sont possibles avec cet outil? Comment quantifier l’importance de l’intervention artistique dans le résultat final? Que faire des meta-algorithmes, qui créent d’autres algorithmes automatiquement à partir d’une contrainte? Autant de questions qui restent à discuter pour obtenir, enfin, un cadre légal clair autour de pratiques créatives qui deviendront de plus en plus courantes.

 

L’artiste et son algorithme: l’Intelligence Artificielle au service de l’Art

Début novembre, Christie’s mettait aux enchères une pièce générée par un algorithme d’intelligence artificielle. Vendu pour plus de 480’000.- CHF, le Portrait d’Edmond Bellamy a alimenté les débats, du monde de l’art à celui de la recherche. Certains applaudissent l’audace des auteurs, clamant l’avènement d’une nouvelle ère sur le marché de l’art. D’autres y voient un coup marketing, gonflé à coup d’approximations techniques et de débats approximatifs sur la nature de l’art, de sa production et de sa valeur.

Le portrait d’Edmond Bellamy, 2018, créé par GAN

 

La formule artistique

 

Pour générer ce portrait, les auteurs, un collectif parisien nommé Obvious, se sont servis d’un algorithme appelé Generative Adversarial Network. Le nom emprunté du sujet fictif, Edmond Bellamy, n’est d’ailleurs rien d’autre qu’une traduction littérale du nom de l’inventeur de ce procédé de génération, Ian Goodfellow. Inspiré par la théorie du jeu, le modèle “met en scène” une compétition entre deux joueurs. Le premier, appelé “Générateur”, a pour objectif de fabriquer un faux, imaginons par exemple un faux billet de banque. Il est contraint par le fait qu’il ne peut jamais avoir sous les yeux d’exemples d’un vrai. N’ayant aucune idée d’à quoi ressemblerait ce billet, il tente une combinaison aléatoire de formes et de couleurs et le soumet à un juge, un second joueur, appelé “Discriminateur”. Celui-ci répond aux essais du falsificateur, soit en rejetant le faux, soit en l’acceptant, considérant qu’il est assez proche d’un vrai.

 

Un GAN apprenant à reproduire des chiffres

 

Cette opération est répétée un grand nombre de fois, jusqu’à arriver à un équilibre entre les deux joueurs. Dans le meilleur des cas, le générateur aura réussi à répliquer un vrai billet, et parvient à tromper le second. Le générateur peut alors créer une infinité de nouveaux exemples à partir de sa compréhension de ce à quoi s’attend le discriminateur. Si cette reconstruction est parfaite, elle trouvera sa place dans un grand nombre d’applications. Nous avons déjà abordé l’importance cruciale que tiennent les données dans le développement des algorithmes de machine learning. La capacité à générer, sur demande, une infinité d’exemples pour améliorer un algorithme est une perspective pour le moins alléchante.

 

Avancées des GANs depuis leur invention en 2014

 

Malheureusement, le générateur atteint rarement une reconstruction parfaite. Une des plus grandes difficultés des modèles actuels réside dans la capacité à générer des exemples originant de classes différentes. Dans l’exemple de faux billets, il est assez aisé, en essayant assez de fois, de générer un type de billet donné (50.- CHF par exemple). En revanche, savoir générer n’importe quel billet demande beaucoup plus d’efforts d’abstraction. La plupart du temps, le modèle ne saura séparer parfaitement les caractéristiques spécifiques à un billet de 50 francs par rapport à celles d’un billet de 20 francs. Alors, il génèrera souvent un mélange des deux, une sorte d’interpolation entre deux exemples connus.

 

Interpolation entre un chien et une méduse par BigGAN

 

Au lieu de répliquer des billets, les auteurs ont programmé le générateur pour produire des portraits, inspirés de 15’000 différentes peintures du XV au XVIIIe siècle. Incapable de séparer les milliers de subtilités entre ces exemples, le générateur finit par rendre un mélange de ses influences. Le résultat laisse aisément deviner cette empreinte, avec des couleurs typiques et des quasi-coups de pinceaux, dont l’origine digitale ne semble visible qu’à travers des zones de flous, artefacts numériques de l’algorithme.

 

Qui est l’artiste?

 

Comme beaucoup d’oeuvres avant elle, cette pièce vendue chez Christie’s est signée. Pourtant, à y regarder de plus près, la signature est un petit peu particulière. Elle exprime en des termes mathématiques ce combat sans merci entre générateur et discriminateur.

 

La formulation mathématique d’un GAN, signature du portrait

Alors, cette formule seule est elle l’auteur de ce tableau? Son créateur ne devrait-t’il pas recevoir tout le crédit? Ou cette formule n’est-elle que le pinceau avec laquelle les artistes se sont exprimés?

 

En termes techniques, la formulation mathématique n’est que le manuel d’instructions. Pour arriver au résultat présenté chez Christie’s, ce sont les données elles-mêmes, les tableaux desquels s’est inspiré l’algorithme qui ont produit cette pièce, unique.

 

Cette unicité est pourtant particulière, car elle semble plus proche de l’aléatoire que du grain de génie. Comme nous l’avons décrit dans l’article précédent, l’algorithme est incapable de compréhension. Il ne voit pas de visages, de tableaux de maîtres, n’envisage pas le contexte ou la portée de son trait, ne connaît rien de l’histoire de l’art, est incapable d’exprimer ou transmettre une émotion.

 

Pour beaucoup, la distinction se fait justement sur le point de l’intention. L’artiste, est lui aussi fruit de ses influences, de son environnement, mais sa production est surtout le résultat de son dessein. Certains comme Paul Gauguin invoquent le divin, d’autres comme Victor Hugo y voient une expression fataliste de la condition humaine. André Malraux, lui, rappelle que l’art est un échange entre humains. Tous semblent pourtant s’accorder sur l’importance primaire de l’intention dans la démarche artistique.

 

De ce point de vue, le Portrait d’Edmond Bellamy est bel et bien humain. Ce sont des humains qui ont choisi les images sur lesquels l’algorithme s’est basé. Ce sont des humains qui ont inventé et implémenté l’algorithme. Ce sont des humains qui voient et interprètent l’oeuvre. Ce sont enfin des humains qui assignent une valeur, vendent ou achètent cette oeuvre.

 

Le pinceau du futur

 

L’ouverture des avancées technologiques au monde de l’art offre de perspectives extraordinaires aux créatifs de tous bords. La possibilité d’expérimenter avec de nouveaux outils a toujours ouvert le champ des possibles pour les artistes. La technologie vient, là encore, au service de l’Homme là où l’on craignait qu’elle le remplace.

 

Dès la fin des années 60 et l’avènement des ordinateurs, l’art génératif fait saliver une génération entière d’artistes. Comme de nombreuses autres disciplines, l’art assisté par ordinateur subit aujourd’hui une seconde révolution numérique, celle des données. Au lieu de générer la complexité à partir de règles simples, les artistes d’aujourd’hui tentent d’effectuer le chemin inverse: distiller la simplicité d’un langage visuel complexe.

 

Travail d’abstraction de Tom White

 

Mario Klingemann a été un des pionniers dans le domaine, utilisant des réseaux neuronaux pour augmenter ou transformer des oeuvres existantes. D’autres artistes utilisent ces méthodes pour styliser leurs propres croquis, comme Helena Sarin. Tom White tente d’extraire de l’art abstrait des représentations que les réseaux neuronaux font des objets qui leur sont présentés. La première incursion de ces algorithmes dans le royaume de l’art remonte au projet “Deep Dream” de Google, mené par Mike Tyka, produisant de représentations psychédéliques qui ont fasciné le grand public.

 

A gauche: ‘The Fall of the House of Usher’ par Anna Ridler. A droite: ‘The Butcher’s Son’ par Mario Klingemann.

 

Il faut tout de même noter que la vente aux enchères à suscité une controverse supplémentaire, avec un cas de litige sur l’auteur exact de ces portraits. Le jeune artiste Robbie Barrat s’est ému de l’étrange ressemblance entre ses créations et celles du collectif parisien. On apprendra que les trois jeunes français se sont librement inspirés d’un modèle partagé sous le modèle open-source par l’américain. S’ils nient avoir copié explicitement le modèle utilisé, ils admettront en interview que leur intervention a été pour le moins minimale. Comme toujours, la question de l’attribution prend une toute autre dimension quand des sommes colossales sont en jeu, sans compter une place dans la postérité comme le premier tableau généré par un algorithme à être vendu dans une grande maison aux enchères.

 

Un extrait du travail de Robbie Barrat

 

Les chercheurs en machine learning sont bien conscients de possibilités offertes par ces modèles ultra-puissants. Un travail de fond pour rendre ces modèles accessibles au plus grand nombre est en train de porter ses fruits. Un des pionniers de cet effort, David Ha, a capturé l’imagination avec son projet Sketch-RNN, qui propose de faire un petit dessin simpliste en voyant un réseau neuronal tenter de compléter le dessin en cours. Google permet aujourd’hui à tout un chacun de s’amuser avec la toute dernière itération de leur GANs, proposant de créer des mélanges d’images. Il s’agit, comme dans l’exemple des portraits, d’interpoler entre plusieurs exemples. N’importe qui peut essayer de transférer le style d’une peinture à une photo, ou transformer un cheval en zèbre.

 

 

On retrouvera comme thème récurrent dans cette chronique la puissance de la coopération entre Homme et machine. Certains arguent que l’avènement de l’art algorithmique sonne le glas de la création artistique. D’autres y voient un outil d’une puissance quasi-divine. Comme souvent la réalité se trouve dans la nuance, entre outil stimulant de créativité et questionnement de la nature de l’art et de la création. Quoi qu’il en soit, ces questions et leurs réponses éventuelles ne trouveront de sens que dans leur contexte humain, par et pour l’humanité.

 

 

L’intelligence artificielle, une balade dans la “vallée de l’étrange”

La vidéo s’ouvre sur un fondu, un tube de l’été, déjà bien trop entendu, sonne le glas. Le dernier né des robots de Boston Dynamics entame une danse extraordinaire de dextérité, parfaitement synchronisé au rythme du tube aux 3.2 milliards de vues: Uptown Funk, par Mark Ronson et Bruno Mars.

 

 

Entre fascination et stupeur, le contraste entre la musique légère et les relents dystopiens qu’ont laissé des films comme Terminator ou Blade Runner nous laisse inexplicablement … mal à l’aise.

 

Extrait de Blade Runner de Ridley Scott (1982)

 

La vallée de l’étrange

 

Ce sentiment a un nom : la vallée de l’étrange (uncanny valley). Expression inaugurée par le roboticien japonais Masahiro Mori en 1970, inspirée du terme freudien unheimlich, “l’inquiétante étrangeté”. Il exprime ce profond sentiment de malaise ressenti quand un objet tente d’imiter le vivant. Si aucun doute n’est permis sur la nature de l’entité nous faisant face, le cerveau ne perçoit aucune menace envers sa propre humanité. Si en revanche le soupçon s’installe, l’ambiguïté entre le naturel et l’artificiel angoisse. On retrouve par exemple cette préoccupation dans le cinéma d’animation ou dans les jeux vidéos, où les traits sont caricaturés ou adoucis pour éviter ce piège de l’hyperréalisme.

Spotmini, le robot danseur, se promène lui allègrement dans cette vallée avec des mouvements fluides d’un naturel déconcertant. Il n’est pourtant que le fruit d’une programmation spécifique, une marionnette mécanique aux fils trop nombreux pour être manipulés par même les mains les plus expertes. Son contrôle est donc automatisé, mais seulement pour cette chorégraphie bien précise, une suite de mouvements expertement programmée par les ingénieurs de la firme américaine.

L’enveloppe mécanique n’est que le vecteur du contrôle algorithmique. Il est essentiel de séparer l’extension physique du robot de son “cerveau”, pour abuser du vocabulaire anthropomorphe.

Pour sa part, le domaine dit de l’”Intelligence Artificielle” se penche plutôt sur ce second aspect. Comment élaborer une machine, pas seulement son extension physique ou mécanique, dotée de capacités cognitives habituellement réservées aux humains: perception et traitement de stimuli externes, raisonnement et abstraction, apprentissage continu, interaction avec un environnement,… Le tout, et c’est là la clef du problème, de façon autonome. Émuler l’une de ces actions en isolement, avec un degré d’approximation plus ou moins grand, est relativement aisé: ce sont des problèmes bien connus des ingénieurs depuis des décennies. “Fermer la boucle” de contrôle est en revanche bien plus complexe et un des enjeux majeurs  pour la recherche actuelle.

 

L’apprentissage automatique

 

Pour tenter d’accéder à ce rêve, dont la tenants éthiques restent à discuter et dont la ligne d’arrivée est encore bien floue, la méthode la plus populaire à ce jour est le machine learning: l’apprentissage des machines. Le principe fondateur est simple: automatiser l’extraction d’informations statistiquement “intéressantes” en fonction de la tâche à réaliser. En d’autres termes, la fréquence des caractéristiques et leur co-occurrences sont autant, voir plus, informatives que les caractéristiques elles-mêmes.

 

Donner aux ordinateurs la capacité d’apprendre sans avoir été explicitement programmés – Arthur Samuel (1959)

 

Serait-il possible d’enseigner à une machine comment reconnaître un chien dans une image? La première approche, traditionnelle, est celle de l’ingénieur: créer manuellement un ensemble de caractéristiques à remplir pour que l’animal photographié rentre dans la case “chien”. L’exercice est pourtant plus complexe qu’il n’y paraît. Nous reconnaissons assez intuitivement les animaux depuis notre tendre enfance, mais essayer de formaliser et énumérer un ensemble assez robuste pour incorporer l’ensemble des chiens “possibles” devient vite intractable.

Le machine learning propose une méthodologie systématique pour automatiser l’énumération des caractéristiques qui différencient un chien des autres entités de la photo présentée. Les caractéristiques “découvertes” sont parfois similaires à celles qu’un humain aurait décrit intuitivement: un museau, des oreilles, un pelage, mais d’autres sont plus difficiles à définir, avec des assemblages complexes – voire psychédéliques – de traits canidés. En mélangeant la réponse à ces différentes caractéristiques dans l’image considérée, l’algorithme assigne alors d’un score sa confiance en la présence d’un chien ou non.

L’élégance de cette approche réside dans le fait qu’elle est générale et auto-suffisante*. Lorsque nous sommes en possession d’informations (par exemple des photos de chiens) et que nous voulons en tirer une prédiction (comme la présence ou l’absence de chien) nous pouvons appliquer ces algorithmes pour “apprendre” comment passer de notre entrée à notre objectif. Ces algorithmes pourraient alors, s’ils sont correctement implémentés, prédire aussi la présence de chiens dans des photos jamais encore observées.

 

Un exemple de classification de chien par un algorithme de machine learning (source: distill.pub).

 

C’est exactement pour cette raison que ces méthodes sont si populaires à l’heure actuelle: le champ d’applications apparaît immense. En formulant le problème de la bonne manière, on croirait aisément qu’il ne suffit alors plus qu’à cueillir le fruit quand il est mûr. Les exemples vont bon train, alternant entre le crucial et le ludique: prédire la présence d’un cancer à partir d’IRM, traduire d’une langue à une autre, étudier ce que regardent vos amis pour prédire quelles séries vous aimerez regarder ou quelles pages vous allez “liker”, utiliser l’historique des achats pour vendre des publicités plus ciblées, dénicher le spam d’une boite mail… La liste d’exemples ne fait que s’allonger, mettant en lumière l’enjeu économique et social que peut représenter ce domaine.

 

La machine comme outil

 

Pourtant, le formalisme présenté ici laisse transparaître une autre faille dans la réalisation actuelle de l’intelligence artificielle. Les outils des machine learning ne s’occupent “que” de trouver des régularités statistiques, des quantités mathématiques, bien loin d’une quelconque compréhension de ce qu’est intrinsèquement un chien, d’y associer des souvenirs ou des émotions, un contexte, un futur ou un passé. En résumé, il n’y a pas d’intention, de dessein, et encore moins de libre-arbitre malgré ce que suggère l’utilisation de termes comme “intelligence” ou “apprentissage”, des actions profondément humaines.

Ces méthodes ont aussi un spectre limité par nature : elles ont été pensées et optimisées pour une tâche et une seule, un objectif explicite. Un algorithme auquel on aurait enseigné la reconnaissance d’images de chiens ne saurait étendre son savoir aux chats, ou deviner la parenté distante de notre ami Spot à ses cousins biologiques. Un des enjeux majeurs de la recherche actuelle est d’arriver à faire cohabiter plusieurs objectifs, par exemple en construisant les capacités de façon incrémentale.

Il paraît alors bien plus judicieux, du moins plus prudent, de penser aux algorithmes de machine learning comme des outils, puissants et flexibles, mais bel et bien mécaniques.

 

 

Beaucoup reste à dire sur ce sujet, ses succès et ses limites, ses raisons et son histoire, les opportunités qui s’ouvrent et les dangers qui dressent, les questions éthiques, sociales, philosophiques ou géo-politiques qu’il soulève. Ce sont ces questions auxquelles j’essaierai de répondre dans cette nouvelle chronique, qui tentera de déchiffrer l’Intelligence Artificielle et ses artifices intelligents.

 

* Dans certaines limites, qui seront discutées dans des articles à venir.