Pourquoi les chinois foncent sur la reconnaissance vocale

Rien de nouveau sous le soleil, pourrait-on penser à lire le titre de ce blog. On le sait, les chinois font tout très vite (et moins bien, espère-t-on toujours secrètement), alors pourquoi pas aussi la reconnaissance vocale!

En décembre dernier, la célèbre MIT Technology Review proclamait en tous cas que Baidu, compagnie leader en recherche sur l’Internet en Chine, avait développé «un système vocal qui peut reconnaître le discours anglais et mandarin mieux que les personnes, dans certains cas». Le nouveau système repose entièrement sur la capacité d’apprentissage en profondeur de la machine (“deep learning”) : elle a appris à reconnaître les mots en écoutant des milliers d’heures de transcriptions audio, comme un petit enfant, a-t-on envie d’ajouter.

Mais l’intriguant de cette course en avant repose sur ce qui la motive: les innombrables sinogrammes du mandarin sont impossibles à transmettre rapidement sur clavier, et les chinois rechignent à utiliser le système phonétique d’équivalence entre les caractères latins et le mandarin. Culture digitale aidant, l’oralité se fait ici plus efficace que l’écrit, si elle débouche sur une reconnaissance vocale effective.

Il conviendrait de prendre le temps de mesurer les implications gargantuesques d’un temps où l’oral pourrait sérieusement reprendre la main sur l’écrit, en provocant un renversement de l’équation pouvoir-savoir au sein de populations qu’on nomme “illettrées”. Verra-t-on un jour à nouveau en occident, comme dans l’Antiquité et jusqu’au 18ème siècle, une proportion plus importante de lecteurs que de personnes sachant lire et écrire ? La question se fait chaque jour moins farfelue.

Nestorian-Stele-Budge-plate-X
Stèle syriaco-chinoise, Baghdad, 781; domaine public; auteur du dessin: Henri Havret, 1895; wikicommons

Mais l’enthousiasme de Baidu nous campe en premier lieu dans le face à face Orient-Occident, comme l’explique avec enthousiasme Andrew Ng, brillant chercheur de Stanford aujourd’hui directeur scientifique de l’entreprise chinoise: «historiquement, on a vu le chinois et l’anglais comme deux langages totalement différentes… les algorithmes d’apprentissage sont maintenant si généraux que vous pouvez simplement apprendre». Aux racines de ce développement se trouve donc l’espoir un peu fou de surmonter l’hétérogène des cultures. Cet espoir a toujours existé, comme le montre cette stèle érigée en 781 par un patriarche chrétien syriaque à Bagdad, étudiée avec ardeur à l’Université de Nimègue: elle met en vis-à-vis caractères syriaques et chinois. On a toujours rêvé d’équivalence, on a toujours voulu mettre son identité dans les mots de celle de l’autre. Rien de nouveau sous le soleil, donc si ce n’est que la stèle avait au fond un solide avenir devant elle, celui qu’accorde la pierre.

 

Claire Clivaz

Claire Clivaz est théologienne, Head of DH+ à l'Institut Suisse de Bioinformatique (Lausanne), où elle mène ses recherches à la croisée du Nouveau Testament et des Humanités Digitales.

Une réponse à “Pourquoi les chinois foncent sur la reconnaissance vocale

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *