Sur mon blog, je parlais où je parle toujours d'API et de manière plus sporadique, de jeux de données. Que ce soit l'un ou l'autre, le résultat est toujours de même : Exploiter des jeux de données issu d'API ou de fichiers.

Je vous ai d'ailleurs déjà présenté des sites internet où il est possible de retrouver certains jeux de données, certaines API, comme l'excellent programmable web de David BerlindWendell Santos et Kevin Sundstrom
Mais, entre nous, en ce qui concerne les jeux de données, il serait vraiment intéressant d'avoir un véritable moteur de recherche. Et bien c'est l'objet de cet article aujourd'hui. Je vais vous présenter un petit moteur de recherche fabriqué par une toute petite société mondiale qui s'appelle...Google !
Vous n'êtes pas sans savoir que Google est un moteur de recherche dans lequel il vous est possible de rechercher à peu près tout ce qui vous passe par la tête. Et bien, si dans votre tête il se passe l'idée de rechercher des jeux de données, pourquoi ne pas l'utiliser ? Ou utiliser plus récisément la partie dataset search du moteur de recherche.
Dans cet exemple, nous allons effectuer une recherche, à tout hasard, une maladie qui s'appelle Covid-19. Je suppose que vous avez déjà entendu parler de ce coronavirus.
Ce choix n'est pas pris au hasard. Ce choix n'est pas donc choisis pour son actualité, non ce choix est volontaire car au début de la crise sanitaire concernant cette maladie, j'avais recherché des jeux de données pour vous montrer comment en extraire certaines informations brutes afin de court-circuiter tout les bla-bla entendu par les différents médias pour ne donner que des données factuelles non (mal ?) traitées. Or, à l'époque, peu de données, peu d'API étaient accessibles.
Nous allons donc aujourd'hui en faire une première recherche au travers du moteur de recherche dataset search.
Ma première recherche va se faire sur le nom de la maladie covid 19 que je pense vous avez entendu parler.
En saisissant le nom de cette épidémie, l'outil de recherche de données nous renvoie une petite dizaine de résultats, dans différentes langues. Et l'intérêt de cette recherche, se situe dans le fait que le nom de cette maladie et relativement standard dans des pays utilisant notre alphabet. Ainsi, l'outil de recherche va vous retourner des informations qu'elles soient françaises, espagnoles, indiennes ou encore japonaises.
On saisit sur le terme recherché, une fenêtre de type auto complète vous propose une liste de résultats prédéfinis. Les résultats sont issus de la recherche de votre chaîne de caractères parmi les titres des jeux de données stockées et enregistrées par Google.
datasetsearch 1
Une fois votre jeu de données sélectionné dans la liste déroulante, vous arrivez sur une page qui va vous présenter le jeu de données. On y retrouve notamment la date de dernière mise à jour, l'organisme où il y a personne ayant édité ce jeu de données, bien entendu une description du jeu de données, mais aussi en 3e position, la licence dans laquelle le jeu de données est exploitable. En effet, nous réutiliserons généralement les données étant sous licences libres, licences dont je vous laisse le soin d'étudier la réutilisabilité des données retournées.
datasetsearch 2
Nous avons vu une recherche sur une maladie, recherchons désormais des jeux de données sur une ville. J'ai pris comme exemple de notre belle ville de Nancy, Vous pourrez voir que google vous retourne les informations sur effectivement la ville française nancy, mais aussi des informations dont le nom est utilisée en tant que prénom dans des jeux de données anglo-saxons.
Vous avez des tas de jeux de données disséminées sous des formes parfois très originales. En effet, si je tape le nom de la ville gastronomique de Lyon, je vais pouvoir retrouver, dans mon d'auto complète, des informations sur les taxis de la ville, le nombre de personnes par genre vivant à Lyon en 2016, des vélos en libre-service à Lyon, ou encore un ensemble de données sur la production d'ethylène ou de propylène de la société LyondellBasell, une entreprise multinationale américaine dont le siège se trouve à Houston, Texas. Alors effectivement les résultats retournés0 se basent sur la sous-chaîne de caractères que vous avez saisie, mais d'un autre côté, le grand nombre de résultat retournés vous permet de trouver celui qui vous intéresse le plus !
Et des thèmes retournés dans la liste des résultats sont très variés. Sur simple recherche de la ville de Nancy, les résultats vont des résultats aux élections municipales de la commune, en passant par le plan cadastral de Vandoeuvre-lès-Nancy, ou encore la pluviométrie à Nancy recensée par l'INRA, en passant par les délibérations du conseil municipal de la ville ou encore le résultat à ses élections municipales.
Comme je l'ai déjà mentionné de manière non formelle sur mon site, des tonnes de données on Open Data sont disponibles un peu partout sur le web. Et tout l'intérêt de ce "sous-moteur" de recherche Google est de ne cocentrer que des résultats recherches de jeux de données au sein d'un moteur de recherche. Au cours de mes recherches, toujours sur le terme de Nancy, je suis aussi tombé sur les horaires des parcours du réseau de transport en commun. Beaucoup d'informations sont donc retournée, le gros souci est donc de trouver celle qui correspond le plus à votre recherche.
Au cours de mon utilisation de cet outil, je me suis aussi concentrée sur le format dans lesquelles les données sont souvent retournée. Sans vouloir être exhaustif, on retrouve généralement les grand format, CSV, zip, pdf , formats classiques dans lesquels les jeux de données sont généralement retournés. La liste des formats indiqués ici est loin d'être exhaustive.
Attention toutefois, ce n'est pas parce que l'auto complete ne se met pas en route lors de votre recherche, que des résultats n'apparaissent pas à la validation de votre recherche. J'ai effectué la recherche suivante : GFTS. Pour ceux qui l'ignorent, c'est un format de fichier qui permet de stocker des horaires de passage sur un arrêt spécifique d'un réseau de transport. Ce format est donc très utilisé par les transports en commun. J'insiste bien sur le fait que c'est un format de fichier et non un nom propre quelconque. En tapant ce nom de format dans la recherche, Google me retourne plus de 100 ensembles de données qui correspondent aux grandes sociétés de transports en commun, qu'elle soit française ou étrangère. Évidemment dans ce jeu de données j'ai trouvé des fichiers correspondant à notre réseau de transport en commun local à Nancy, mais aussi des jeux de données sur les lignes du Transilien SNCF, des jeux de données sur le transit des routes à New York, un cycle des jeux de données sur les cars jaunes de la Réunion, pour ne citer que ceux-là.
Dernière petite précision, une fois votre recherche lancée sur la chaîne de caractères de votre choix l'outil vous permet aussi de filtrer les résultats selon des critères. Vous pouvez ainsi fait très sur les dates de mise à jour, sur les formats de fichiers retournés, sur les droits d'usage du jeu de fichier retourné, Vous avez la possibilité de choisir une thématique des jeux de données, et enfin, le plus intéressant, savoir si la réutilisabilité du jeu de données retourné est entièrement gratuite ou pas.
Un petit outil à connaître fort intéressant que je vous conseille vivement de bookmarquer.

Mon Github

slhuilli1's GitHub repositories