Abonné depuis plusieurs mois à un site internet recensant des API du web entier, je suis tombée ce matin à 7h, sur une API faisant de la reconnaissance optique de caractères, autrement appelé OCR.
ma curiosité l'a emporté sur ce que j'étais en train de faire. J'ai donc souhaité tester cette nouvelle API donc optique évidemment de mon resservir ultérieurement sur mon autre site. J'ai été agréablement surpris par la qualité et la rapidité du produit.

La problèmatique

Nous ne sommes plus dans une phase de scannérisation comme on le faisait autrement avec des OCR locaux tels que Omnipage, mais nous pouvons océriser tout document textuel sous la forme d'image en ligne. Il suffit d'avoir URL de l'image pour que l'API prenne en paramètre de l'URL, l'URL de l'image. Une avancée majeure !

Le service interrogé : OCR.space

Après avoir ouvert un compte et obtenu mes clés API permettant de compter le nombre de scanerisations (car l'API restent gratuite mais pour un nombre réduit d'utilisation de l'ordre de 25000 par mois, ce qui nous laisse pas mal de marge), je me suis rendu dans la documentation afin de voir comment cette fonctionnalité de l'API se mettait en oeuvre. Notons toutefois que dans la version gratuite, nous ne pouvons faire que 500 appels à l'API par jour ! Une version professionnelle et professionnelle PDF existe mais payante avec des nombres de pages largement grand.
Voyons désormais la simplicité d'utilisation de l'outil. Car c'est une véritable simplicité enfantine qui m'a épatée.
Le lien fourni ci-dessous permet de lancer et API (avec Votre clef API bien entendu).
https://api.ocr.space/parse/imageurl?apikey=[VOTRE_CLEF_API]&url=https://i.ytimg.com/vi/BKrXjIkl3bY/maxresdefault.jpg
Vous voyez que seules deux paramètres sont à passer dans l' url : votre clef API ainsi que l'url de l'image à scanner.
Vous obtiendrez en retour un fichier de type JSON dans lequel vous aurez votre texte parsé, avec des tas d'autres paramètres qui peuvent être très utile de lors de l'intégration de votre API dans un programme. Notons au passage que dans le texte parsé, l'OCR aura reconnu les retours chariot. Ils sont spécifiées par la commande \r\n.
Vous n'avez donc même plus de télécharger une image pour récupérer son texte, seule son URL à passer en paramètre de l'API suffit à retourner un texte.
Personnellement je pense que je vais vraiment utiliser cet outil que je trouve super simple
Vous retrouverez toutes ces informations sur le site OCR.space.