Nous leur avons demandé de hacker nos archives. Voici leurs projets

En deux jours, historiens, graphistes et programmeurs réunis au sein de la rédaction du Temps ont trituré les archives historiques que nous détenons. L’objectif: inventer des projets ludiques et novateurs pour que ces 4 millions d’articles numérisés soient visibles au-delà du carcan du moteur de recherche.

Les uns parlent SPARQL, entités nommées, structure de fichiers ou extraction de données. Les autres évoquent le langage épicène au travers des ans, la place de la Chine dans les archives du Journal de Genève durant la guerre froide et le manque de mémoire des journalistes actuels. Entre les spécialistes de la technique – une quinzaine d’informaticiens, chercheurs de l’EPFL, designers – et les 13 représentants des sciences humaines – historiens, linguistes, géographes – tout indique vendredi matin que ce hackathon allait mal se passer.

DSCF9024

Pour parler un langage commun commence alors le travail de traduction mené par les participants issus du laboratoire des humanités digitales de l’EPFL (à mi-chemin entre sciences humaines et informatique), ceux-là mêmes qui ont mis en place letempsarchives.ch il y a quelques mois.

A lire: L’EPFL et «Le Temps» lancent un site à la pointe de la technologie pour faciliter l’accès à 200 ans d’archives

DSCF8924

Cas concret. Maud Ehrmann (photo ci-dessus), spécialiste de linguistique computationnelle, explique à deux chercheuses comment son travail mené à l’EPFL sur le corpus des archives du Journal de Genève et de la Gazette de Lausanne leur permettra de tester leur hypothèse. En interrogeant les «entités nommées», c’est-à-dire les noms propres et noms de lieux reconnus automatiquement dans ce corpus de 4 millions d’articles, elles sauront si les femmes mentionnées dans ces journaux ont été affublées de titres féminisés ou non. Si, selon les archives, Marguerite Duras est un écrivain, une écrivaine ou une romancière?

DSCF9028

Dès midi, les équipes se forment. La trentaine de participants se répartissent en cinq groupes à géométrie variable. Les projets historiques prennent une tournure technique. Les questionnements informatiques se précisent au regard de leur résonance aux oreilles des historiens.

Puis vient le marathon: plusieurs heures de travail, les yeux rivés à l’écran, pour construire les premiers prototypes. Jusqu’à 22 heures vendredi, puis la journée de samedi. Et les projets sont présentés. Les voici:


■ La Gazette de Lausanne aime l’image alors que le Journal de Genève reste éternellement austère

Marqueur fort de l’identité d’un journal: la place accordée à l’illustration. Une équipe a décidé de s’intéresser aux deux titres figurant dans les archives du Temps pour comprendre leur politique photographique.

Si jusqu’au début du 20e siècle, en raison des contraintes techniques, il n’y avait pratiquement pas d’images dans le Journal de Genève ou la Gazette de Lausanne, une analyse informatique permet de montrer deux grandes périodes durant lesquelles le quotidien lausannois marque très nettement l’importance qu’elle accorde à la photo, alors que son concurrent genevois, plus austère, reste très orienté texte. Première explication: la Gazette, plus audacieuse, aurait expérimenté des pages purement photographiques là où le Journal est resté très classiquement attaché au texte.

Nombre d'images rapporté au nombre de pages dans le Journal de Genève et la Gazette de Lausanne
Nombre d’images rapporté au nombre de pages dans le Journal de Genève et la Gazette de Lausanne

Les hackathoniens ont expliqué plusieurs des pics signalant des efforts d’illustration particulier, autant du côté de la Gazette de Lausanne que du Journal de Genève.

  • La cartographie, dans les premières années

Si, entre 1890 et 1910, le Journal de Genève propose plus d’illustrations, c’est que le journal a souvent recours à la cartographie.

Le Journal de Genève, en 1855, explique en carte le siège de la ville de Sébastopol, un des moments clés de la guerre de Crimée
Le Journal de Genève, en 1855, explique en carte le siège de la ville de Sébastopol, un des moments clés de la guerre de Crimée
  • Les héros de la guerre, en 1915

Rendez-vous hebdomadaire dans la Gazette de Lausanne durant l’année 1915: une pleine page de portraits photographiques consacrés aux héros de la guerre de 1914-1918.

heros-guerre

  • Images de l’hiver 1965

Entre 1960 et 1970, l’écart se creuse de manière très marquée et la Gazette de Lausanne multiplie les expériences d’utilisation de la photo. Par exemple, cette page digne d’un tabloïd actuel, intitulée «De tout pour faire un hiver».

10 janvier 1964: de simples photos de l'hiver à travers le monde
10 janvier 1964: de simples photos de l’hiver à travers le monde

Ce travail, réalisé intégralement durant les deux jours du hackathon, a été rendu possible par une catégorisation automatique réalisée à partir du contenu des page qui permet aussi, sur letempsarchives.ch, de distinguer textes, photos et publicités.

L’équipe: Pierre-Pascal Baumann, Vincent Buntinx et Anthony Chenevard.


■ «Déjà vu», l’histoire se répète

À partir du Temps d’aujourd’hui, le projet propose de trouver un article dans les archives qui résonne en regard de l’actualité d’aujourd’hui. Par exemple: en pleine actualité liée au match de football Albanie-Suisse, peut-on automatiquement retrouver la trace des précédentes rencontres entre les deux équipes?

Poussant loin la réflexion et la réalisation, les hackathoniens ont pris en compte le fait que la machine sera toujours imparfaite. Dans leur concept, ils envisagent ainsi que l’utilisateur du site, lorsqu’il se voit proposer un document d’archives, peut valider ou non le choix de l’algorithme.

«Déjà vu»: comment lier articles actuels et archives?
«Déjà vu»: comment lier articles actuels et archives?

En deux jours, les participants ont proposé un prototype presque intégralement fonctionnel: l’entier des fonctionnalités est implémenté, le graphisme du site a été réalisé, mais l’algorithme mériterait encore quelques réglages. L’outil est efficace lorsque le titre des articles est précis, mais a davantage de peine à proposer des archives pertinentes quand ce n’est pas le cas.

L’équipe: Catherine Brand, Anthony Byledbal, Kyril Gossweiler, Fabrice Hong, Didier Jeandrevin, Arnaud Miribel et Douglas Watson.


■ Le bonimenteur mécanique: diffuser les réclames

Identifier les publicités anciennes – celles qui font le bonheur des abonnés de la page Facebook «Étonnant dans Le Temps» – et les tweeter automatiquement. Un script va piocher dans les publicités déjà identifiées: il garde la liste des annonces déjà remises en circulation pour éviter de les tweeter à nouveau.

Et ça marche, suivez @retro_reclame

Dans le futur, les deux pères de @retro_reclame imaginent ouvrir un projet de crowdfunding et, grâce aux fonds récoltés, s’acheter des espaces de publicité Facebook pour inonder le réseau de publicités obsolètes. Ou alors lancer une sorte d’Adblocker ludique qui, au lieu de supprimer les publicités sur les sites internet, les remplace par d’anciennes annonces.

L’équipe: Frédéric Noyer et Yannick Rochat.


■ Les brèves du petit monde : le plus court chemin entre Einstein et Zidane

Ce concept aurait sa place dans les projets de l’Infolipo: chercher le chemin le plus court entre deux personnes dans les archives. On passe d’un article à l’autre à travers les personnes citées ensemble dans ces articles jusqu’à aboutir à la cible.

Les participants ont laissé leur machine rédiger des textes basés sur ce qui relie Churchill à Birkin, Guillaume Tell à Arsène Lupin ou Einstein à Zidane.

Par exemple, de Brigitte Bardot à Churchill:

Evidemment, pour monter une garde vigilante, il vaut mieux avoir présent à la mémoire les traits martiaux des sept conseillers fédéraux que les formes alanguies de Brigitte Bardot. Il n’empêche que si les troupes de Sa Très Gracieuse Majesté britannique ont gardé le sourire et gagné la dernière guerre, c’est – Churchill lui-même l’a reconnu – grâce à Jane, la pin-up du «Daily Mirror». Charmante, naïve et intelligente, jeune et gaie, sensible et sensuelle, telle est Birkin. Depuis qu’elle ne vit plus avec Gainsbourg, elle n’a cessé de conquérir une indépendance qui lui était refusée, d’affirmer son image. Car depuis le scandaleux «Je t’aime… moi non plus», qui outra la prude Brigitte Bardot et ébranla jusqu’aux portes du Vatican, cette «ex-fan des sixties» nichait à l’ombre de Gainsbourg, qui en avait fait son égérie, mais aussi sa Lolita».

Extraits issus de la Gazette de Lausanne du 17 juillet 1960 et du 4 juin 1987.

Bluffant et ludique, ce projet va nécessiter encore quelques heures de travail pour fonctionner réellement sans l’aide appuyée de l’intelligence humaine. Est-ce une source d’inspiration ou un projet similaire ? Fonctionnant sur le même principe, le site oracleofbacon.org cherche les relations cinématographiques entre 2 acteurs.

L’équipe: Patricio André, Emmanuel Dalle Mulle, Pierre-Alexandre Fonta, Cassandre Poirier-Simon, Benoît Renaudin et Pierre Runavot.


■ Ergonomie du site letempsarchives.ch

Né en mars 2016, letempsarchives.ch est encore très imparfait. Le projet propose d’améliorer le site et d’offrir 3 options de recherche à l’internaute: simple, avancée, experte.

La recherche avancée permettrait de rendre explicite toute une série d’options qui sont aujourd’hui cachées (rechercher une édition en particulier, exclure des termes, …) mais aussi d’en proposer de nouvelles (recherche par auteur ou uniquement sur la Une d’une édition, etc).

Une proposition dinterface pour la recherche avancée
Une proposition d’interface pour la recherche avancée.

Ce parti pris a une vocation pédagogique: l’utilisation des options de recherche avancée remplit la chaîne de recherche: l’internaute comprend donc la syntaxe qui y est utilisée.

La recherche experte permet l’utilisation des entités nommées – une reconnaissance automatique des noms propres et des noms de lieu. Le concept étant souvent mal compris par les internautes, une vidéo explicative doit être proposée et une aide.

L’équipe: J. B. [ne souhaite pas être nommé] et Timothée Olivier.


Après le hackathon, dans les cuisines du Temps
Après le hackathon, dans les cuisines du Temps

Pour terminer, le suivi de ces deux jours sur les réseaux sociaux, résumé par Yannick Rochat, que nous remercions d’avoir organisé ce hackathon pour notre compte.

2 réponses à “Nous leur avons demandé de hacker nos archives. Voici leurs projets

  1. Bonjour,
    Je lis seulement deux titres de presse le matin; Le Temps et Le Monde… Des titres “légers” et d’autres qui m’interpellent. Ce sont ces derniers qui me font fouiller Internet ensuite. Parmi mes sujets, celui des animaux, en lien avec nom blog ongardevosanimaux.com . L’ampleur de votre projet m’accroche comme c’est pas possible… C’est fort de persister à faire différent !
    Cordialement Gardanima

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *