Comment nous avons enquêté avec les données d’Airbnb

Airbnb--672x359

 

Demain et dès à présent sur le site web du Temps, vous pourrez lire une enquête de notre journaliste Julie Conti sur Airbnb à Genève. L’article s’intéresse à cette plate-forme de location de logements fondée en 2008 par des Américains, et qui connaît un immense succès dans le monde entier. Et cette enquête contient une s’appuie sur une démarche de datajournalisme.

Du journalisme de données

Tout est parti d’un questionnement.

Dans de nombreuses grandes villes – Paris, New-York, Berlin – Airbnb est accusé de confisquer le marché locatif. Et qu’en est-il à Genève ? Les résidences principales mises en location sur Airbnb le sont-elles réellement ? Airbnb est-il encore ce site “cool” de partage de bons plans entre particuliers ou a-t-il été en main par des intermédiaires ou des acteurs professionnels ?

Pour répondre à ces questions, nous aurions pu, en surfant sur le site, en lisant les commentaires, aller récupérer des informations et des témoignages au cas par cas.

Nous avons essayé de travailler un peu différemment, en nous appuyant sur les données, pour tenter une approche plus globale. Et plus “data”.

Voici donc le mode d’emploi de cette enquête.

Première étape, récupérer les données, la matière première indispensable. En utilisant l’excellent outil Outwit Hub, nous avons commencé par “scraper”, c’est à dire aspirer sur le site Airbnb les quelques 2000 annonces publiées sur Genève et ses environs (notamment en France voisine).

Nous avons ainsi “programmé” un petit robot sous la forme d’un petit bout de code, un extracteur, qui nous a permis de récupérer les informations qui nous intéressaient (prix, profil du locataire, notation, nombre de chambres…) sur l’une des pages de AirBn. Nous avons appliqué automatiquement notre extracteur à l’ensemble des fiches concernant les annonces de Genève et des environs.

Pour ceux que cela intéresse : le lien vers le script. Vous pouvez le réutiliser.

Un tableau de 1000 lignes

Au final, nous avons récupéré un tableau de 2000 lignes. Nous avons gardé uniquement les annonces de Genève et ses environs… soit un petit millier de lignes. Bien sûr, cette “capture” n’est qu’une photographie à un instant T du marché locatif d’Airbnb. Mais à l’inverse d’autres sites d’annonces, le site d’Airbnb ne change pas à un rythme aussi rapide.

Deuxième étape, nous avons questionné nos données.

En utilisant un tableur (LibreOffice dans notre cas, ou Excel) via la fonction de tri et surtout via les tableaux croisés dynamiques, nous avons donc pu “interroger” nos données, de la même manière qu’un journaliste interroge une personne interviewée. Nous avons aussi pu obtenir par exemple le profil des locations, le prix médian (90 euros) ou moyen (110 euros).

carte1

Toujours dans cette logique d’interrogation des données, nous avons tenté de localiser automatiquement les annonces sur une carte, pour voir quels quartiers étaient les plus prisés. Si le site de Airbnb n’indique pas précisément l’adresse, on trouve cependant dans le code HTML les coordonnées précises… qui nous permet donc de localiser toutes nos annonces sur la carte (via Fusion Tables ou CartoDB par exemple). En soit rien de très surprenant, on trouve évidemment une densité très importante d’offres dans le centre ville.

Géocodage inversé et cadastre

Nous avons ensuite utilisé le système du “Geocodage Inversé” pour retrouver les adresses précises. Là aussi, un petit mot d’explication. Le géocodage simple, c’est le principe de base de Google : vous lui donnez une adresse et qu’il la place sur une carte. Eh bien, le géocodage inversé, c’est le contraire : cela permet d’entrer une latitude et une longitude (ex : 46.208574, 6.136784) pour retrouver l’adresse (ex: 23 rue de Lyon, Genève).

carte2

Dernière question “posée” de nos données : l’analyse du profil des propriétaires. Sur les 753 propriétaires qui se répartissent le marché Airbnb sur Genève, une centaine louent plusieurs domiciles.

Trouver les multi-locataires

Deux cas très saillants sont ressortis immédiatement dans Excel, que nous n’aurions jamais pu identifier sans ce travail : un certain Dimitri (en fait une société) qui propose une petite vingtaine d’annonces et le profil de “ Jasmina” qui “gère” pas moins de 38 offres sur le grand Genève et 87 sur toute la Suisse. En utilisant de manière agile la recherche Google ou en croisant nos données avec le registre foncier de la ville de Genève (le cadastre), nous avons pu identifier les propriétaires qui nous intéressaient et nous avons réussi à retrouver le véritable nom de ces deux personnes et leurs coordonnées. Nous les avons ensuite contactées au téléphone. Et c’est là que la partie du journalisme traditionnel prend le relais sur la partie “data”.

Lire aussi:

 

 

3 réponses à “Comment nous avons enquêté avec les données d’Airbnb

  1. Bonjour,
    Est-il possible d’avoir le script à utiliser avec Outwit Hub.
    Je travaille pour une collectivité et je dois étudier l’impact d’AirBnB sur le territoire.
    Merci beaucoup

Répondre à Prosper WANNER Annuler la réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *