Les jeux de données du web

Les jeux de données du web (6)

samedi, 12 mars 2022 18:16

Tarifs locaux du carburant

Écrit par

Bon, il parait que les gens qui ont des voitures sont super embétés en ce moment par la flambée des prix du pétrole, à tel point que de nombreuses personnes détournent la situation avec humour sur Facebook.

Mais savez vous que grâces aux jeux de données du Ministère de l'Economie, de l'Industrie et du Numérique, vous pouvez avoir accès à la station service la plus proche et la moins chère ?

Voici pour la région de Nancy les tarifs locaux

 

Bien sûr, vous povez exploiter le jeu de données (pour d'autres communes par exemple) qui se trouve là : https://public.opendatasoft.com/explore/dataset/prix_des_carburants_j_7/table/?sort=update

vendredi, 31 décembre 2021 11:04

Génération de votre formulaire de saisie

Écrit par

Suite à mon article sur la génération de jeux de données avec Google Sheets, je souhaitais aller plus loin en générant, une fois le fichier Sheets prêt ( et ceci à son importance) un formulaire de saisie.

Pourquoi ceci à son importance ? Car à en suivre les tutos de Google, c'est dans l'autre sens qu'il faut faire : déja créer son Google Forms puis ensuite l'associer à une Google Sheets. Ici la problématique est à l'envers : nous avons une feuille de données et nous voulons nous appuyer dessus pour former un formulaire.

A priori, d'après mes recherches, Google n'a pas envisagé cet ordre. En revanche, Jivrus Technologie y a pensé et à mi s en place un petit outil : Form Builder for Sheets que vous pouvez retrouver à l'adresse https://workspace.google.com/marketplace/app/form_builder_for_sheets/463417060578 pour procéder à son installation dans votre espace Google Sheets.


Maintenant que notre extension est installée, nous retrouvons cette extension dans les feuilles Google Sheets :

Nous devons maintenant préparer notre feuille afin de connaitre le contenu des colonnes. Ainsi, sur la première ligne, nous allons mettre nos entêtes de colonnes.


Maintenant que notre feuille de calcul, qui ne va servir que d'espace de stockage de vos informations, est prête, nous allons désormais passer à la création du formulaire. Assurez-vous d'être connecté à votre compte Google et rendez vous sur la page https://workspace.google.com/marketplace/app/form_builder_for_sheets/463417060578 et procédez à l'ibnstallation de cette extension. Elle s'intégrera dans VOTRE profil Google Sheets.
Désormais nous allons précéder à la création du formulaire à partir de votre feille de caclul, en vous rendant dans le menu Extension->Form builder for Sheets. (ATTENTION, il ne faut pas utiliser le menu Outil->Créer un formulaire qui lui ne se base pas sur votre feuille de données en cours mais céer un formulaire vide).


Sélectionnez votre feuille et cliquer pour l'import de la sélection


Vous vous retrouvez avec votre formulaire prêt à l'emploi. Deux solutions s'offrent désormais à vous :

  • Intégrer votre formulaire à votre propre page web
  • Donner le lien direct aux personnes susceptibles de renseigner votre formulaire

 

Pour obtenir le lien vers votre formulaire, dans le coin haut droit, cliquer sur les trois points puis sélectionner "Obtenir le lien". remplissez une premiere fois votre formulaire puis cliquez sur Obtenir le lien. Ce dernié est collé dans votre presse-papier.

Obtenir le lien

Dans cet article, je vous relate un test que j'ai fait ce 25 décembre sur la possibilité de mettre en place par des outils très simples fournis par le géant Google, de jeux de données diffusables.
Je ne vais pas jusqu'à qualifier ces jeux de données OpenSource, car je n'ai pas été jusqu'à lire les licences complètes de Google. Il est en effet fort possible qu'une fois les données saisies sur Google Sheets, ces dernières deviennent la propriété de Google. Je ferme cette parenthèse mais il faut avoir ceci en tête pour la suite de cet article

Quel est le but ?

Au travers de cet article, je souhaite simplement montrer comment il peut être super simple pour un néophyte en informatique, de mettre en place un jeu de données accessibles et réexploitables par d'autres sites web. Nous allons prendre comme fil rouge un jeu de données tout fait, pour ne pas avoir à resaisir les données, un jeu de données existante : la liste des "Morts pour la France" durant la deuxième guerre mondiale. Ce jeu de données étant en opendata, j'ai réintégré les données dans une feuille Google Sheet pour gagner du temps, mais j'aurais tres bien pu faire ma propre feuille Google Spreadsheet de l'ensemble des timbres de ma collection personnelle, l'ensemble des plats goutés à l'étranger,...

Petite parenthèse : l'import des données

Comme je viens de l'expliquer, j'utilise un extrait d'un jeu de données existant que vous pouvez retrouver sur l'OpenDataSoft https://public.opendatasoft.com/explore/dataset/morts-pour-la-france/export/?flg=fr
L'import ne sert juste, dans mon exemple, à ne pas avoir à resaisir des données, mais si vous utilisez cet article à des fins de construction de votre propre jeu de données, il vous faut créer un fichier Google Sheet vide et vous devez le remplir.
Mais nous sommes bien d'accord que la réutilisation de données dans cet exemple n'a pour but que de ne pas resaisir des données. J'obtiens, après import dans mon cas, ou  aprés création de votre jeu de données, un tableau de la sorte, avec vos colonnes à vous :

firefox VZ3htRuHws

 Voila, nous avons notre point de départ de ce tutoriel, un jeu de données. Je publierai ultérieurement un autre tutoriel pour fabriquer, toujours avec les outils de Google, un tutoriel expliquant comment fabriquer un formulaire de saisie permettant de saisir votre jeu de données, mais surtout de faire saisir par d'autres des données. 

Rendre accessible le jeu de données

Pour des raisons évidentes de sécurité, vos fichiers stockés dans Google Sheet/Google Drive ne sont accessibles qu'à vous seul. Or, notre but est bel est bien de rendre accessible le jeu de données à tous (attention, je parle bien du jeu de données, pas du fichier !). Pour ceci, il faut spécifier à Google que nous sommes d'accord pour le partage

 En retour, Google Spreadsheet vous retourne une URL d'accès au fichier.

URL acces

Notez que vous trouverez aussi ici, outre la possibilité de partager votre fichier avec les différents sharers proposés (GMail, Facebook et Twitter), un champs primordial pour ce tuto, celui placé juste au dessus des sharers. C'est ce lien que nous allons utiliser. Sélectionnez-le et copiez le dans votre presse papier ou dans un fichier texte de travail.

Sur cette copie d'écran, j'utilise le format de données CSV maisd'autres formats sont disponibles.comme le TSV, Les autres formats proposés ne permettent pas (facilement) une réexploitation des données comme nous voulons faire. Remarquez que le format choisi n'est en fait qu'un pramètre dans l'URL !

Maintenant, votre jeu de données est déjà prêt. Publiez le pour bien le rendre accessible ! Et partagez votre URL à celles et ceux qui le désirent. Un bémol dans cette méthode est que l'URL n'est pas personnalisable pour rendre partageable ou non le fichier.

Et si vous voulez vous assurer que ca marche, téléchargez mon fichier CSV  !

Désormais, vous pouvez utiliser Google form pour générer un formulaire de saisie

samedi, 23 octobre 2021 12:05

(Google) Dataset Search

Écrit par

Sur mon blog, je parlais où je parle toujours d'API et de manière plus sporadique, de jeux de données. Que ce soit l'un ou l'autre, le résultat est toujours de même : Exploiter des jeux de données issu d'API ou de fichiers.

Je vous ai d'ailleurs déjà présenté des sites internet où il est possible de retrouver certains jeux de données, certaines API, comme l'excellent programmable web de David BerlindWendell Santos et Kevin Sundstrom
Mais, entre nous, en ce qui concerne les jeux de données, il serait vraiment intéressant d'avoir un véritable moteur de recherche. Et bien c'est l'objet de cet article aujourd'hui. Je vais vous présenter un petit moteur de recherche fabriqué par une toute petite société mondiale qui s'appelle...Google !
Vous n'êtes pas sans savoir que Google est un moteur de recherche dans lequel il vous est possible de rechercher à peu près tout ce qui vous passe par la tête. Et bien, si dans votre tête il se passe l'idée de rechercher des jeux de données, pourquoi ne pas l'utiliser ? Ou utiliser plus récisément la partie dataset search du moteur de recherche.
Dans cet exemple, nous allons effectuer une recherche, à tout hasard, une maladie qui s'appelle Covid-19. Je suppose que vous avez déjà entendu parler de ce coronavirus.
Ce choix n'est pas pris au hasard. Ce choix n'est pas donc choisis pour son actualité, non ce choix est volontaire car au début de la crise sanitaire concernant cette maladie, j'avais recherché des jeux de données pour vous montrer comment en extraire certaines informations brutes afin de court-circuiter tout les bla-bla entendu par les différents médias pour ne donner que des données factuelles non (mal ?) traitées. Or, à l'époque, peu de données, peu d'API étaient accessibles.
Nous allons donc aujourd'hui en faire une première recherche au travers du moteur de recherche dataset search.
Ma première recherche va se faire sur le nom de la maladie covid 19 que je pense vous avez entendu parler.
En saisissant le nom de cette épidémie, l'outil de recherche de données nous renvoie une petite dizaine de résultats, dans différentes langues. Et l'intérêt de cette recherche, se situe dans le fait que le nom de cette maladie et relativement standard dans des pays utilisant notre alphabet. Ainsi, l'outil de recherche va vous retourner des informations qu'elles soient françaises, espagnoles, indiennes ou encore japonaises.
On saisit sur le terme recherché, une fenêtre de type auto complète vous propose une liste de résultats prédéfinis. Les résultats sont issus de la recherche de votre chaîne de caractères parmi les titres des jeux de données stockées et enregistrées par Google.
datasetsearch 1
Une fois votre jeu de données sélectionné dans la liste déroulante, vous arrivez sur une page qui va vous présenter le jeu de données. On y retrouve notamment la date de dernière mise à jour, l'organisme où il y a personne ayant édité ce jeu de données, bien entendu une description du jeu de données, mais aussi en 3e position, la licence dans laquelle le jeu de données est exploitable. En effet, nous réutiliserons généralement les données étant sous licences libres, licences dont je vous laisse le soin d'étudier la réutilisabilité des données retournées.
datasetsearch 2
Nous avons vu une recherche sur une maladie, recherchons désormais des jeux de données sur une ville. J'ai pris comme exemple de notre belle ville de Nancy, Vous pourrez voir que google vous retourne les informations sur effectivement la ville française nancy, mais aussi des informations dont le nom est utilisée en tant que prénom dans des jeux de données anglo-saxons.
Vous avez des tas de jeux de données disséminées sous des formes parfois très originales. En effet, si je tape le nom de la ville gastronomique de Lyon, je vais pouvoir retrouver, dans mon d'auto complète, des informations sur les taxis de la ville, le nombre de personnes par genre vivant à Lyon en 2016, des vélos en libre-service à Lyon, ou encore un ensemble de données sur la production d'ethylène ou de propylène de la société LyondellBasell, une entreprise multinationale américaine dont le siège se trouve à Houston, Texas. Alors effectivement les résultats retournés0 se basent sur la sous-chaîne de caractères que vous avez saisie, mais d'un autre côté, le grand nombre de résultat retournés vous permet de trouver celui qui vous intéresse le plus !
Et des thèmes retournés dans la liste des résultats sont très variés. Sur simple recherche de la ville de Nancy, les résultats vont des résultats aux élections municipales de la commune, en passant par le plan cadastral de Vandoeuvre-lès-Nancy, ou encore la pluviométrie à Nancy recensée par l'INRA, en passant par les délibérations du conseil municipal de la ville ou encore le résultat à ses élections municipales.
Comme je l'ai déjà mentionné de manière non formelle sur mon site, des tonnes de données on Open Data sont disponibles un peu partout sur le web. Et tout l'intérêt de ce "sous-moteur" de recherche Google est de ne cocentrer que des résultats recherches de jeux de données au sein d'un moteur de recherche. Au cours de mes recherches, toujours sur le terme de Nancy, je suis aussi tombé sur les horaires des parcours du réseau de transport en commun. Beaucoup d'informations sont donc retournée, le gros souci est donc de trouver celle qui correspond le plus à votre recherche.
Au cours de mon utilisation de cet outil, je me suis aussi concentrée sur le format dans lesquelles les données sont souvent retournée. Sans vouloir être exhaustif, on retrouve généralement les grand format, CSV, zip, pdf , formats classiques dans lesquels les jeux de données sont généralement retournés. La liste des formats indiqués ici est loin d'être exhaustive.
Attention toutefois, ce n'est pas parce que l'auto complete ne se met pas en route lors de votre recherche, que des résultats n'apparaissent pas à la validation de votre recherche. J'ai effectué la recherche suivante : GFTS. Pour ceux qui l'ignorent, c'est un format de fichier qui permet de stocker des horaires de passage sur un arrêt spécifique d'un réseau de transport. Ce format est donc très utilisé par les transports en commun. J'insiste bien sur le fait que c'est un format de fichier et non un nom propre quelconque. En tapant ce nom de format dans la recherche, Google me retourne plus de 100 ensembles de données qui correspondent aux grandes sociétés de transports en commun, qu'elle soit française ou étrangère. Évidemment dans ce jeu de données j'ai trouvé des fichiers correspondant à notre réseau de transport en commun local à Nancy, mais aussi des jeux de données sur les lignes du Transilien SNCF, des jeux de données sur le transit des routes à New York, un cycle des jeux de données sur les cars jaunes de la Réunion, pour ne citer que ceux-là.
Dernière petite précision, une fois votre recherche lancée sur la chaîne de caractères de votre choix l'outil vous permet aussi de filtrer les résultats selon des critères. Vous pouvez ainsi fait très sur les dates de mise à jour, sur les formats de fichiers retournés, sur les droits d'usage du jeu de fichier retourné, Vous avez la possibilité de choisir une thématique des jeux de données, et enfin, le plus intéressant, savoir si la réutilisabilité du jeu de données retourné est entièrement gratuite ou pas.
Un petit outil à connaître fort intéressant que je vous conseille vivement de bookmarquer.

Si vous aussi, vous vous intressez aux différents jeux de données, peut etre que cette information, publiée le 23 décembre 2020, pourra vous interesser. En effet, rapport sur la politique publique de la donnée, des algorithmes et des codes sources vient d'être publié et je vous propose de le dé couvire dès à présent :

Rapport sur la politique publique de la donnée, des algorithmes et des codes sources

vendredi, 28 février 2020 18:47

Corona ? Une presqu'API

Écrit par
Au fil de mes recherches concernant les différences API du web, je me suis rendu compte que beaucoup de données était aussi accessible en libre-service, sous différents formats, principalement en CSV mais d'autres formats sont aussi accessibles.
Des jeux de données, il y en a énormément sur Internet. Que ce soit des données gouvernementales, nous y reviendrons dans un prochain article, que ce soit des données géographiques, ou des données de santé, des quantités de fichiers sont téléchargeables, et mets à jour à intervalles réguliers.
Cela fait quelques jours que je recherche un jeu de données très particulier pour vous montrer ce que l'on peut faire avec ce genre d'informations, et pour coller dans l'actualité, j'ai cherché et j'ai trouvé un jeu de données sur le coronavirus.
Mais à quel prix. J'ai effectué presque 3 jours de recherche.
Au départ, je m'étais mis à la recherche d'une API. Mais en réfléchissant un peu, ce genre d'informations se trouve principalement au sein même deux fichier plutôt que sur un service Web interrogeable via une appli. Nous allons donc aujourd'hui voir comment ça marche Honda tendance de parcourir plusieurs Jeux d'été que je trouverai ici et là. En effet des jeux de données et il y en a à la pelle sur internet tous aussi intéressant que les autres, mais surtout mise à jour très régulièrement. C'est la raison pour laquelle il faut intégrer le jeu directement dans un programme, de manière à ne pas avoir à le télécharger à chaque fois que l'on veut s'en servir. C'est le programme qui sera ce travail.
 
Le principe de ce programme tient en une dizaine de lignes. Il suffit de donner url des fichiers que on veut traiter, l'ouvrir, en php on peut le faire directement, et enfin le parcourir pour récupérer ligne
Les informations, plus traiter chacune de ces lignes on les explose en fonction des séparateurs séparant les champs.
 bien entendu, le source est téléchargeable n'hésitez pas à en abuser. Je vais le commenter
À partir de cette semaine, je vais donc tenter de regarder les jeux de données intéressant, et les exploiter afin de démontrer comment remplir des sites à l'aide de données déjà existante.
J'ai déjà dans mon grand chapeau d'autres jeux de données fort intéressantes que nous regarderons au fait du temps. Avant de terminer cet article je tiens à souligner que plusieurs types de fichiers existe des format CSV des format text ou d'autres types de données suivant des formats standards
Amusez-vous bien mais surtout de stresser pas trop pour le connard virus...
La base de données brutes est ici : https://github.com/CSSEGISandData/COVID-19
 
J'ai rajouté deux petits "programmes" en fin de semaine dernière que je voulais aussi partager. Les sources de données sont les sites gouvernementaux (France). En effet, en interrogeant plusieurs sources différentes, je me suis rendu compte que les chiffres ne sont pas les mêmes ! Ici la source est https://health-api.com

Voir en grand
 J'ai aussi trouvé une source de données synthétiques plutot interessante dont les données sont issues du ministère de la santé :

[Suite le 24 mars]

De plus en plus de jeux de données accessibles liés aux coronavirus sont accessibles sur la toile. Aujourd'hui, je complète mon article avec un jeu de données qui vient d'être publié sur data.gouv.fr, recençant les établissements de dépistage du coronavirus. Si vous souhaitez le réutiliser, vous avez accès au jeu de données des établissements prenant en charge ce coronavirus.

Voici ce que l'on peut en sortir :

Non non c'est pas une blague. Je continue à tomber sur des jeux de données interessant sur cette crise COVID.
Aujourd'hui, c'est un peu de données qui vous permet de chercher et trouver le nombre de cas déclarés et recencé par jour.


 Mise à jour du 7 avril*

Décidement, ca n'arrête pas de pleuvoir des jeux de données. Moi qui "pleurnichais" aux premiers jours de la découverte de cette nouvelle maladie, je suis désormais gâté en perme de donnée (et non d'API). En effet, on trouve plus de jeux de données concernant le COVID que de vraies API.

Aujourd'hui, cette mise à jour de cet article vous propose un jeu de données issu du site www.data.gouv.fr, le site francais officiel de l'état, des jeux de données. Ce jeu contient des statistiques sur les essais cliniques concernant... le COVID. Après lecture des données et légère mise en forme, voici ce que je vous propose :