Les jeux de données du web

Les jeux de données du web (1)

vendredi, 28 février 2020 17:47

Corona ? Une presqu'API

Écrit par
Au fil de mes recherches concernant les différences API du web, je me suis rendu compte que beaucoup de données était aussi accessible en libre-service, sous différents formats, principalement en CSV mais d'autres formats sont aussi accessibles.
Des jeux de données, il y en a énormément sur Internet. Que ce soit des données gouvernementales, nous y reviendrons dans un prochain article, que ce soit des données géographiques, ou des données de santé, des quantités de fichiers sont téléchargeables, et mets à jour à intervalles réguliers.
Cela fait quelques jours que je recherche un jeu de données très particulier pour vous montrer ce que l'on peut faire avec ce genre d'informations, et pour coller dans l'actualité, j'ai cherché et j'ai trouvé un jeu de données sur le coronavirus.
Mais à quel prix. J'ai effectué presque 3 jours de recherche.
Au départ, je m'étais mis à la recherche d'une API. Mais en réfléchissant un peu, ce genre d'informations se trouve principalement au sein même deux fichier plutôt que sur un service Web interrogeable via une appli. Nous allons donc aujourd'hui voir comment ça marche Honda tendance de parcourir plusieurs Jeux d'été que je trouverai ici et là. En effet des jeux de données et il y en a à la pelle sur internet tous aussi intéressant que les autres, mais surtout mise à jour très régulièrement. C'est la raison pour laquelle il faut intégrer le jeu directement dans un programme, de manière à ne pas avoir à le télécharger à chaque fois que l'on veut s'en servir. C'est le programme qui sera ce travail.
 
Le principe de ce programme tient en une dizaine de lignes. Il suffit de donner url des fichiers que on veut traiter, l'ouvrir, en php on peut le faire directement, et enfin le parcourir pour récupérer ligne
Les informations, plus traiter chacune de ces lignes on les explose en fonction des séparateurs séparant les champs.
 bien entendu, le source est téléchargeable n'hésitez pas à en abuser. Je vais le commenter
À partir de cette semaine, je vais donc tenter de regarder les jeux de données intéressant, et les exploiter afin de démontrer comment remplir des sites à l'aide de données déjà existante.
J'ai déjà dans mon grand chapeau d'autres jeux de données fort intéressantes que nous regarderons au fait du temps. Avant de terminer cet article je tiens à souligner que plusieurs types de fichiers existe des format CSV des format text ou d'autres types de données suivant des formats standards
Amusez-vous bien mais surtout de stresser pas trop pour le connard virus...
La base de données brutes est ici : https://github.com/CSSEGISandData/COVID-19
 
J'ai rajouté deux petits "programmes" en fin de semaine dernière que je voulais aussi partager. Les sources de données sont les sites gouvernementaux (France). En effet, en interrogeant plusieurs sources différentes, je me suis rendu compte que les chiffres ne sont pas les mêmes ! Ici la source est https://health-api.com

Voir en grand
 J'ai aussi trouvé une source de données synthétiques plutot interessante dont les données sont issues du ministère de la santé :

[Suite le 24 mars]

De plus en plus de jeux de données accessibles liés aux coronavirus sont accessibles sur la toile. Aujourd'hui, je complète mon article avec un jeu de données qui vient d'être publié sur data.gouv.fr, recençant les établissements de dépistage du coronavirus. Si vous souhaitez le réutiliser, vous avez accès au jeu de données des établissements prenant en charge ce coronavirus.

Voici ce que l'on peut en sortir :

Non non c'est pas une blague. Je continue à tomber sur des jeux de données interessant sur cette crise COVID.
Aujourd'hui, c'est un peu de données qui vous permet de chercher et trouver le nombre de cas déclarés et recencé par jour.


 Mise à jour du 7 avril*

Décidement, ca n'arrête pas de pleuvoir des jeux de données. Moi qui "pleurnichais" aux premiers jours de la découverte de cette nouvelle maladie, je suis désormais gâté en perme de donnée (et non d'API). En effet, on trouve plus de jeux de données concernant le COVID que de vraies API.

Aujourd'hui, cette mise à jour de cet article vous propose un jeu de données issu du site www.data.gouv.fr, le site francais officiel de l'état, des jeux de données. Ce jeu contient des statistiques sur les essais cliniques concernant... le COVID. Après lecture des données et légère mise en forme, voici ce que je vous propose :