interprétation

Jour après jour, l’intelligence artificielle (IA) – et le domaine du machine learning (ML) – nous est présentée comme le futur. Le ML est bel est bien déjà omniprésent dans une foule de domaines mais se heurte régulièrement à un un obstacle de taille: son côté black box ou, formulé autrement, à son manque d’interprétabilité. Comment peut-on donc faire confiance à une telle technologie, même si ses applications sont de plus en plus répandues, si on ne parvient à la décortiquer, à l’expliquer? Qui sera tenu responsable en cas de conséquence néfaste? En gros, comment ça marche?

Cette question centrale, de surcroît pour une société civile qui s’empare de la problématique, est abordé par un très intéressant article paru dans The Gradient. Trois raisons principales sont mises en avant pour justifier pourquoi ce thème est important:

gagner en confiance: mieux comprendre un mécanisme technologique permet une adoption par un plus grand nombre à plus large échelle;
augmenter la sécurité: en se penchant sur les rouages des modèles de ML, on pourrait diagnostiquer certains problèmes plus tôt et offrir davantage de possibilités de remédier à la situation;
proposer la possibilité de contester: en décomposant un modèle de ML, on pourrait offrir l’opportunité de faire recours tout au long de chaîne de raisonnement.

Selon l’article de Lipton cité dans celui de The Gradient, l’interprétabilité se compose de deux aspects:

la transparence: elle fait référence aux propriétés du modèle qui sont utile de comprendre et qui peuvent être connues avant le début de l’entraînement (de l’apprentissage) du modèle de ML.
1. Simulability: un humain peut-il suivre pas à pas chaque étape de l’algorithme? On peut par exemple penser à des arbres de décisions ou à des modèes linéaires (au mapping direct) qui facilitent la compréhension.
2. Decomposability: le modèle est-il interprétable à chaque étape ou en ce qui concerne ses sous-composantes?
3. Transparence algorithmique: l’algorithme apporte-t-il des garanties? possède-t-il des propriétés facilement compréhensibles (comme le fait de produire un résultat précis)?
l’interprétabilité post-hoc: elle fait référence aux questions une fois que que l’entraînement du modèle de ML est terminé.
1. Explication du texte: le modèle peut-il expliquer sa décision en langage (humain) naturel, après coup?
2. Visualisation/explications locales: le modèle peut-il identifier ce qui est/était important pour sa prise de décision?
3. Explication par l’exemple: le modèle peut-il montrer ce qui, dans les données d’entraînement, est lié à ces input/output?

L’auteur de l’article se penche ensuite sur deux aspects qui sont à ses yeux des directions que devrait suivre la recherche sur l’interprétabilité.

Evaluation: trouver de meilleurs moyens d’évaluer ces nombreuses méthodes d’interprétabilité.
Utilité: s’assurer que ces approches d’interprétabilité apportent réellement une valeur ajoutée.

Il conclut enfin sur une invitation à poursuivre ces efforts à propos de l’interprétabilité en ML: “Cette tâche requiert une bonne compréhension de la psychologie de l’explication et le savoir-faire technique pour formaliser ces desiderata. Les travaux futurs pourraient se concentrer sur l’amélioration de la manière dont nous évaluons les explications et leur utilité finale pour les utilisateurs et les superviseurs humains.”