De l’interprétabilité du Machine Learning

Jour après jour, l’intelligence artificielle (IA) – et le domaine du machine learning (ML) – nous est présentée comme le futur. Le ML est bel est bien déjà omniprésent dans une foule de domaines mais se heurte régulièrement à un un obstacle de taille: son côté black box ou, formulé autrement, à son manque d’interprétabilité. Comment peut-on donc faire confiance à une telle technologie, même si ses applications sont de plus en plus répandues, si on ne parvient à la décortiquer, à l’expliquer? Qui sera tenu responsable en cas de conséquence néfaste? En gros, comment ça marche?

Cette question centrale, de surcroît pour une société civile qui s’empare de la problématique, est abordé par un très intéressant article paru dans The Gradient. Trois raisons principales sont mises en avant pour justifier pourquoi ce thème est important:

gagner en confiance: mieux comprendre un mécanisme technologique permet une adoption par un plus grand nombre à plus large échelle;
augmenter la sécurité: en se penchant sur les rouages des modèles de ML, on pourrait diagnostiquer certains problèmes plus tôt et offrir davantage de possibilités de remédier à la situation;
proposer la possibilité de contester: en décomposant un modèle de ML, on pourrait offrir l’opportunité de faire recours tout au long de chaîne de raisonnement.

Selon l’article de Lipton cité dans celui de The Gradient, l’interprétabilité se compose de deux aspects:

la transparence: elle fait référence aux propriétés du modèle qui sont utile de comprendre et qui peuvent être connues avant le début de l’entraînement (de l’apprentissage) du modèle de ML.
1. Simulability: un humain peut-il suivre pas à pas chaque étape de l’algorithme? On peut par exemple penser à des arbres de décisions ou à des modèes linéaires (au mapping direct) qui facilitent la compréhension.
2. Decomposability: le modèle est-il interprétable à chaque étape ou en ce qui concerne ses sous-composantes?
3. Transparence algorithmique: l’algorithme apporte-t-il des garanties? possède-t-il des propriétés facilement compréhensibles (comme le fait de produire un résultat précis)?
l’interprétabilité post-hoc: elle fait référence aux questions une fois que que l’entraînement du modèle de ML est terminé.
1. Explication du texte: le modèle peut-il expliquer sa décision en langage (humain) naturel, après coup?
2. Visualisation/explications locales: le modèle peut-il identifier ce qui est/était important pour sa prise de décision?
3. Explication par l’exemple: le modèle peut-il montrer ce qui, dans les données d’entraînement, est lié à ces input/output?

L’auteur de l’article se penche ensuite sur deux aspects qui sont à ses yeux des directions que devrait suivre la recherche sur l’interprétabilité.

Evaluation: trouver de meilleurs moyens d’évaluer ces nombreuses méthodes d’interprétabilité.
Utilité: s’assurer que ces approches d’interprétabilité apportent réellement une valeur ajoutée.

Il conclut enfin sur une invitation à poursuivre ces efforts à propos de l’interprétabilité en ML: “Cette tâche requiert une bonne compréhension de la psychologie de l’explication et le savoir-faire technique pour formaliser ces desiderata. Les travaux futurs pourraient se concentrer sur l’amélioration de la manière dont nous évaluons les explications et leur utilité finale pour les utilisateurs et les superviseurs humains.”

Une réponse à “De l’interprétabilité du Machine Learning”

Cher Phil,

L’article que tu cites (celui du Gradient, revue étudiante) me semble aborder la question d’un point de vue largement productiviste, au détriment d’autre considérations comme l’éthique (qu’il utilise comme tag, mais qui n’apparait pas une seule fois dans l’article, sauf pour citer des acteurs futurs, externes et fictionnels). Je trouve qu’il ne fait pas vraiment le tour de la question comme il l’annonce.

Sa question semble se résumer à « faut-il/est-il possible d’interpréter avec précision chaque étape d’une inférence ». Il mentionne de façon un peu incomplète que cela est possible dans le cas de certains algorithmes (kNN, decision trees, support vector machines, naive bayes, adaboost etc.). Pourtant, un grand nombre de systèmes distribués reposent sur du ML supervisé/semi-supervisé. Leur déconstruction, transparence et explicabilité sont donc relativement faciles. Il serait faux de laisser penser que c’est normal ou tolérable que le processus décisionnel de tout produit utilisant le ML soit impossible à expliquer ou que cela ne serait que « peu utile » du point de vue des résultats. La non-explication de la « boîte noire » est surtout commode pour les acteurs privés qui distribuent des produits peu robustes, propulsés par des modèles pas suffisamment testés ou entrainés sur des datasets situés… La profondeur des neural networks est parfois brandie comme argument pour défaire leurs auteurs de leurs responsabilités, mais on peut espérer que cette époque de « free-for-all » touche à sa fin : Les EU ont passé la première loi de responsabilisation algorithmique l’an dernier (https://www.wyden.senate.gov/imo/media/doc/Algorithmic%20Accountability%20Act%20of%202019%20Bill%20Text.pdf) et l’Europe suit, un peu derrière (https://ec.europa.eu/info/law/better-regulation/have-your-say/initiatives/12270-White-Paper-on-Artificial-Intelligence-a-European-Approach)…

Les deux voies citées pour l’interprétabilité « Evaluation & Utility » me paraissent incomplètes. Des chercheur·e·s du Centre for Safe and Trusted Artificial Intelligence du King’s et Imperial College de Londres (https://safeandtrustedai.org/) testent de nombreuses stratégies pour la vérification et l’explicabilité… entrainer des modèles à vérifier d’autres modèles, l’interprétation abstraite/analyse statique (rendue célèbre par le bug de la fusée Ariane 5), le monitoring avec un « digital twin » qui rend visible tout ce que fait la copie d’un modèle qui tourne en parallèle, etc. Côté sciences sociales il y a un projet en cours « the Human Error » à l’institute for media and communication management de l’uni de St-Gall qui a l’air intéressant (http://childdatacitizen.com/human-error-ai-childrens-rights/).

Il faut bien différencier les usages plutôt innocents tels que MNIST dans l’exemple de l’article (créatifs, par l’industrie du divertissement etc.) des usages industriels du deep learning (tels que l’analyse de sentiments avec input vidéo pour le recrutement) et les conséquences potentielles qu’auraient un biais dans chacun des cas. Qu’il soit techniquement évitable ou non n’exonère pas l’auteur·e d’un modèle distribué de ses responsabilités.

Les commentaires sont clos.

Philippe Labouchère, Ph.D.

Une réponse à “De l’interprétabilité du Machine Learning”