Plugin showpdf : afficher les méta données des fichiers PDF

Détails: Catégorie : Plugins

Je vous présente cette semaine un dernier plugin que j'ai écrit dans un cadre professionnel, dont le but est d'extraire des métadonnées de fichiers PDF.

Si vous êtes un fidèle lecteur de mon site, vous vous rappelez peut-être que le 4 septembre 2022, j'ai écrit un article intitulé en attendant un plugin d'extraction de métadonnées PDF. Dans cet article, j'explique comment, grâce aux expressions rationnelles, il est possible d'extraire des métadonnées à partir de fichiers PDF. Je ne reviendrai donc pas sur cette manière de faire mais je vous conseille peut-être de relire cet article avant de continuer.

Aujourd'hui, ce que j'expliquais dans mon article, dans un plugin Joomla, comment récupérer ses métadonnées et de les afficher à l'utilisateur. Je n'ai pas développé cet outil pour rien, c'est un besoin purement professionnel. Comme d'habitude si vous êtes intéressé, vous pouvez récupérer les sources et les intégrer dans votre Joomla. Et comme d'habitude, si vous apporter une touche infographique, ce sera avec plaisir que je ferai un lien vers vos modifications.

Sans rentrer trop dans les détails du code de ce plugin, je vais quand même toutefois vous expliquer dans les grandes lignes comment ce plugin fonctionne.

Il faut savoir que dans un fichier PDF, qui se trouve être un fichier de type binaire, l'ensemble des métadonnées, afin de pouvoir être récupérées, collectées et intégrées par un moteur de recherche par exemple (qu'il soit sur Internet ou sur des réseaux internes), doivent être écrites "en texte brut" dans le fichier PDF qui lui, je le rappelle, est un fichier binaire.

Cela nous arrange donc particulièrement car il nous suffit de lire le fichier PDF comme un fichier texte, pour pouvoir en extraire sa csubstantifique moelle métadonienne de ce fichier. J'ai travaillé ici sur le format de type PDF mais vous pouvez, bien entendu, réexploiter ce code pour l'utilisation de données d'autres types. D'ailleurs, peut-être que de nouveaus plugins sur d'autres formats de fichiers viendront un jour. Je pense notamment à des fichiers .doc ou des fichiers .xls pour démarrer.

Je reviens et j'insiste sur un point qui reste très important sur la récupération de métadonnées : encore une fois, tous les fichiers, qu'ils soient binaires ou non, les métadonnées doivent être au format texte brut. C'est la raison pour laquelle, il est possible, grâce aux expressions rationnelles (regex), d'extraire ces métadonnées qui sont forcément intégrées entre deux chaînes de caractères ou deux caractères spécifiques déterminant une zone dans laquelle ces métadonnées sont présentes.

Fonctionnement dans les grandes lignes de mon code

Pour mener à bien l'extraction des métadonnées d'un fichier PDF, voici les étapes que j'utilise. Dans un premier temps je recherche dans mon article le shortcode {showpdf(.*)}(.*){/showpdf} afin d'en extraire le contenu qui n'est, ni plus ni moins, que le lien vers le fichier PDF. Remarquez que vous pouvez dans mon plugin passer un paramètre dans le premier paramètre du short code.

Le fonctionnement est simple, dans le cas où les métadonnées ne sont pas dans votre fichier PDF, il est possible de surcharger ses données en y mettant dans le paramètre du premier short code.

Une fois récupéré le chemin vers le fichier, j'attaque plusieurs recherches. Dans un premier temps je récupère depuis cle chamin du fichier, sa taille du fichier grâce à une fonction PHP native qui me renvoie la taille de ce fichier en octet. Je crée quatre groupes particuliers qui permettent de transformer ce nombre retourné en octet dans une valeur plus adaptée, si besoin, comme le mégaoctet, le terraoctet, ou encore le goga octet.

À la suite de la recherche de la taille du fichier, je recherche véritablement les informations méta du PDF. On retrouve la version du format de PDF utilisé,

l'auteur du fichier PDF,
le sujet du fichier PDF,
sa date de création,
sa date de modification,
les mots clés,
le titre (attention, ce n'est pas le nom du fichier !),
le producteur de fichier,
le nombre de pages que contient le fichier PDF,
éventuellement le nombre d'images que contient le fichier PDF,
et enfin des informations stipulant si ce fichier PDF est protégé par un mot de passe ou non.

Sur l'ensemble des sites sur lesquels je travaille avec Joomla, j'intègre toujours le plugin de regular lab qui permet d'afficher un phylactère. Et donc ici, au cœur de mon plugin, j'utilise les classes CSS de ce phylactère pour générer cette bulle qui contient le contenu des métadonnées du fichier PDF se trouvant au cœur des shortcodes.

showpdf.php

<?php
defined('_JEXEC') or die('Access deny');

class plgContentShowPDF extends JPlugin //Concatener à "plg" le nom du groupe (ici Content) puis le nom du plugin ( que l'on trouve ds le XML ligne extension) : plg<Plugin Group><Plugin name>
{
 /***********************************************************************************************************************
  * N'etant pas expert en regex, je n'ai pas pu faire autrement que de faire débuter les balise meta par le caractere #
  * Ainsi, dans l'article, pour surcharger les eta par défaut, il faut écrire les metaqs ainsi : 
  * {showpdf   #author="titi" #subject= "Un sujet surchargé"  #CreationDate="20/02/2021"    #ModDate="20/02/2021"  #keywords="motclé1, motcle2,mo3" #titre="Un titre surchargé" #producer="Un producer
  * surchargé"}__DOCUMENTS__/PDF_avec_meta.pdf{/showpdf}
  **************************************************************************************************************************/

	function onContentPrepare($content, $article, $params, $limit){
		$document = JFactory::getDocument();
		$document->addStyleSheet(JURI::base(). 'plugins/content/showpdf/showpdf.css');
		$re = '/ {1,}/m';
		$subst = ' ';
		preg_match_all('/{showpdf(.*?)}(.*?){\/showpdf}/is',$article->text  ,$matches);	
		array_push($matches,$temp);
		$ligneTemp =  $matches[1][0];
		$p = explode('#',$ligneTemp);
		$tab_asso = array();
		$tab = array();
		$i=0;
		foreach($p as $element)
		{
			if (isset($element))
			{
				$f= explode('=',$element);
				$tab[$i][0]=$f[0];
				$tab[$i][1]= str_replace('"','',trim($f[1]));
				$tab[$i][2]=strlen($f[0]);//Permet de voir si y'a des lancs non compatabiliséqs
			}
			$i++;
		}
		$nomFichier = $matches[2][0];	
		$tab_asso["NomFichier"] = $nomFichier;
	
		$TITRE= "Titre : ";
		$AUTEUR= "Auteur : ";
		$NOMFIC = "Nom du fichier : ";
		$TAILLE = "Taille : ";
		$ch = '<div>';
		$pdf = file_get_contents($nomFichier);
		$Tpdf = file($nomFichier);
	
		//echo "Taille en octets : ".;
		if(round(filesize($nomFichier)/pow(2,40)>0))//tera
		{
			$taille_fic = round(filesize($nomFichier)/pow(2,40))." To";
		}
		
		if(round(filesize($nomFichier)/pow(2,30)>0))//tera
		{
			$taille_fic = round(filesize($nomFichier)/pow(2,30))." Go";
		}
		
		if(round(filesize($nomFichier)/pow(2,20)>0))//tera
		{
			$taille_fic = round(filesize($nomFichier)/pow(2,20))." Mo";
		}
		
		if(round(filesize($nomFichier)/pow(2,10)>0))//tera
		{
			$taille_fic = round(filesize($nomFichier)/pow(2,10))." Ko";
		}
		
		/*VERSION DU PDF UTILISE */
		$tab_asso["TailleFichier"] = $taille_fic ;
		$ch .= $NOMFIC.$matches[0][1];
		echo "Version du pdf : ".substr($Tpdf[0],1)."<br>";
		$ch = $TITRE.substr($Tpdf[0],1).'('.$taille_fic.')';
		
		/*RECHERCHE DE L'AUTEUR DU PDF*/  
		$re = '/Author \((.*)\)/m';	
		preg_match_all($re, $pdf, $matches, PREG_SET_ORDER, 0);
		$tab_asso["Author"] =$matches[0][1];
		
		/*RECHERCHE DU SUJET DU PDF*/  
		$re = '/Subject \((.*)\)/m';	
		preg_match_all($re, $pdf, $matches, PREG_SET_ORDER, 0);	
		$tab_asso["Subject"] =$matches[0][1];
		
		/*RECHERCHE DE LA DATE DE DERNIERE creation PDF*/  
		$re = '/CreationDate \((.*)\)/m';	
		preg_match_all($re, $pdf, $matches, PREG_SET_ORDER, 0);
		$tab_asso["CreationDate"] = substr($matches[0][1],2,4)."/".substr($matches[0][1],6,2)."/".substr($matches[0][1],8,2)." ".substr($matches[0][1],10,2).":".substr($matches[0][1],12,2);
		
		/*RECHERCHE DE LA DATE DE DERNIERE MODIFICATION PDF*/  
		$re = '/ModDate \((.*)\)/m';	
		preg_match_all($re, $pdf, $matches, PREG_SET_ORDER, 0);
		$tab_asso["ModDate"] = substr($matches[0][1],2,4)."/".substr($matches[0][1],6,2)."/".substr($matches[0][1],8,2)." ".substr($matches[0][1],10,2).":".substr($matches[0][1],12,2);
		
		
		/*RECHERCHE DES MOTS CLEFS*/  
		$re = '/Keywords \((.*)\)/m';	
		preg_match_all($re, $pdf, $matches, PREG_SET_ORDER, 0);
		$tab_asso["Keywords"] =$matches[0][1];
		
		/*RECHERCHE DU TITRE DU PDF*/  
		$re = '/Title \((.*)\)/m';	
		preg_match_all($re, $pdf, $matches, PREG_SET_ORDER, 0);
		$tab_asso["Title"] =$matches[0][1];
		
		/*RECHERCHE DE L'OUTIL AYANT Generé PDF*/  
		$re = '/Producer \((.*)\)/m';	
		preg_match_all($re, $pdf, $matches, PREG_SET_ORDER, 0);
		$tab_asso["Producer"] =$matches[0][1];
		
		/*Recherche du nombre de pages dans le pdf*/
		$re = '/\/Pages\n\/Count(.*)\n/m';
		preg_match_all($re, $pdf, $matches, PREG_OFFSET_CAPTURE, 0);
		$tab_asso["CountPages"] = $matches[1][0][0];
		
		/*Compter le nombre d'images dans le pdf*/
		$re = '/Subtype \/Image/m';
		preg_match_all($re, $pdf, $matches, PREG_OFFSET_CAPTURE, 0);
		$tab_asso["CountImage"] = count($matches[0]);
		
		/*Ce pdef a t il un mot de passe ?*/
		$re = '/\/Encrypt(.*)/m';
		preg_match_all($re, $pdf, $matches, PREG_OFFSET_CAPTURE, 0);
		if (count($matches[0])>0)
		{
			$tab_asso["ProtectionParMotPasse"] = "Ce fichier est protégé par un mot de passe";
		}
		else
		{
			$tab_asso["ProtectionParMotPasse"] = "Ce fichier n'est pas protégé par un mot de passe";
		}
		
		$re = '/Encoding(.*)/';
		
		echo "<hr>";
		
		$contenu .= "<b>Titre :</b> : <i>"						.$tab_asso["Title"]."</i><br>";
		$contenu  = "<b>Fichier</b> : <i>"						.$tab_asso["NomFichier"]."</i><br>";
		$contenu .= "<b>Taille du fichier</b> : <i>"			.$tab_asso["TailleFichier"]."</i><br>";
		$contenu .= "<b>Auteur</b> : <i>"						.$tab_asso["Author"]."</i><br>";
		$contenu .= "<b>Sujet du fichier</b> : <i>"				.$tab_asso["Subject"]."</i><br>";
		$contenu .= "<b>Créé le </b> : <i>"						.date('d M Y', strtotime($tab_asso["CreationDate"]))." à ".date('h:i:s', strtotime($tab_asso["CreationDate"]))."</i><br>";
		$contenu .= "<b>Dernière modification le </b> : <i>"	.date('d M Y h:i:s', strtotime($tab_asso["ModDate"]))." à ".date('h:i:s', strtotime($tab_asso["ModDate"]))."</i><br>";
		$contenu .= "<b>Mots clefs associés </b> : <i>"			.$tab_asso["Keywords"]."</i><br>";
		$contenu .= "<b>Fichier pdf généré par </b> : <i>"		.$tab_asso["Producer"]."</i><br>";
		$contenu .= "<b>Ce fichier comporte </b> : <i>"			.$tab_asso["CountPages"]."</i> page(s) et <i>"	.$tab_asso["CountImage"]."</i> images<br>";
		$contenu .= $tab_asso["ProtectionParMotPasse"];
		$titre = "Présentation des méta données de ce fichier PDF";
		echo '<div class="metadata">';
		
		
		
		echo '<span class="rl_tooltips-link nn_tooltips-link hover top" data-toggle="popover" data-html="true" data-template="&lt;div class=&quot;popover rl_tooltips nn_tooltips has_title&quot;&gt;&lt;div class=&quot;arrow&quot;&gt;&lt;/div&gt;&lt;div class=&quot;popover-inner&quot;&gt;&lt;h3 class=&quot;popover-title&quot;&gt;&lt;/h3&gt;&lt;div class=&quot;popover-content&quot;&gt;&lt;p&gt;&lt;/p&gt;&lt;/div&gt;&lt;/div&gt;&lt;/div&gt;" data-placement="top" data-content="'.$contenu.'" title="<center>'.$titre.'</center>"><span class="monfic">Nom de fichier</span>'.$tab_asso["NomFichier"] .'</span>';
		//Il faut rempalcer le shortcode par la chaine d'affichage. Dans un premier temps, je ne fais que la supprimer
		//$article->text = preg_replace('/{showpdf(.*?)}(.*?){\/showpdf}/is','', $article->text);	
		
		$article->text = preg_replace('/{showpdf(.*?)}(.*?){\/showpdf}/is','', $article->text);	
		//Puis il faut recomposer un HTML propre de présentation (à partir d'un fichier template ?)
		//echo "test";
		//Puis le réinjecter dans l'article !
		//echo 	'</div>';
		
		echo '</div>';
		
		
	}
}

showpdf.xml

<?xml version="1.0" encoding="utf-8"?>
<extension version="3.1" type="plugin" group="Content">
	<name>Showpdf</name>
	<author>Sebastien LHUILLIER</author>
	<creationDate>Juillet 2022</creationDate>
	<copyright>Sébastien LHUILLIER</copyright>
	<license>GNU General Public License version 2 or later; see LICENSE.txt</license>
	<authorEmail>Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.</authorEmail>
	<authorUrl>www.sebastien-lhuillier.com</authorUrl>
	<version>1.0</version>
	<description>Ce plugin permet de présenter de maniere jolie un PDF à télécharger</description>
	<files>
		<filename plugin="showpdf">showpdf.php</filename>
		<filename>showpdf.xml</filename>		
	</files>
</extension>

showpdf.css

.monfic::before{
	content:"\1F5CE";
	font-size:180%;
	color:blue;
	padding-right:5px;
}

.libelle{
	color:red;
	font-weight:bold;
}

Mon Github

slhuilli1's GitHub repositories

targetpdf
Add "_blank" automatically when href ils a pdf file !
zippage
Zipper tous les PDF internes d'une page Joomla Content
legendeimg
No description
antispam
Plugin qui génère une chaine mais avec le symbole @ dans le css, évitant de se faire aspirer son mail !
modallightbox
No description
titrearticle
Remplace affiche le titre de l'article.
provisoire
Lister des documents marqués comme "provisioires"
cssmodal
Plugin Joomla pour lancer une fenetre modale
modalpdf
No description
demandeajoutdoc
This pligin add a mailto: link info Regular Labs Tabs (for intranet whithout spam)
natif
Ce plugin prend en compte ou pas l'affichage des fichiers natifs (word/excel) en sus de liens vers des PDF
nouveau
Un plugin joomla qui affiche une mention "nouveau" sur un lien hypertext avannt une date butoire - A Joomla plugin that displays a “new” mention on a hyperlink before a deadline
lastdocsupdates
Plugin d'affichage des derniers fichiers modifiés dans un répertoire donné
noteitv2
No description
NoCache
No description
addIdToHn
Ce plugin ajoute automatiquement un id calculé (compté) aux balises Hn
ReadFirefoxBookmarks
reading Firefox bookmak with PHP using SQLite library
externalcssandlib
Add external CSS and javascript libraries in your projets
qr
Ce plugins affiche une liste de questions reponses - This plugin for Joomla show a list of questions, when clicked, the answer is showed
dataarchives
Joomla plugin - Ajour une class sur un lien si ce lien possede data-archives="oui" - Add a class on a link if this link has data-archives="oui"
attachments
No description
mod_vacances
Ce module Joomla affiche les congés français. Basé sur des OpenDatas du minitère de l'éducation nationale
noteit
Ce plugin permet l'ajout de Post it (format graphique) dans un article
nbonlineusers
No description
removehtmlcomment
Delete all html comment in a joomla article
rechercheget
Recherche en GET dans Joomla Content
formatfichier
Synrthese of articles' Joomla content
workflow_steps
A simple HTML/CSS code to show where the step of workflow is
mod_entjca
Module listants les entreprises créées dans le département de votre choix.
definitions
Ce plugin permet l'affichage de termes et leurs définition