Créer et publier des PDF aux métadonnées indexées.

Trop de publications sérieuses ne sont pas traitées automatiquement par Zotero. Comment faire pour y remédier?

J’utilise Zotero de façon de plus en plus systématique pour conserver et organiser l’ensemble de mes lectures de recherche, de mes notes. Chacune de mes références bibliographiques est aussi liée à une version PDF de l’article ou de l’ouvrage. Si vous utilisez cette fonction vous avez remarqué que certains document PDF contiennent des métadonnées qui permettent de créer automatiquement une référence bibliographique en extrayant du fichier le type, le titre, l’auteur ou l’autrice, l’année de publication ou encore l’éditeur. Or, vous avez aussi remarqué que de nombreux PDF créés à partir d’un programme de traitement de texte ne contiennent pas ces métadonnées et qu’il faut par conséquent créer la référence manuellement.

Tout récemment, divers rapports ou études portant sur la découvrabilité et les métadonnées des secteurs culturels ont été publiés sous format PDF et à ma grande déception, ils ne contenaient paradoxalement pas de métadonnées de référencement. C’est quand même un peu navrant. Mais, bien honnêtement, je ne savais pas comment m’assurer que les métadonnées de mes publications PDF soient indexables automatiquement. Des recherches en ligne se sont montrées peu fructueuses pour résoudre ce problème. Je m’y suis donc attaqué.

Il semble, dans un premier temps, qu’il faille, pour créer un PDF indexable, avoir recours à la fonction OCR ou de reconnaissance optique des caractères de Adobe. Mais bon, la nouvelle version de Adobe Acrobat dans l’info-nuagique coûte $15 par mois. Ce n’est pas tout à fait abordable (pour ne pas dire Adorbable). Avant de m’y résigner, j’ai tenté de voir si un document Word importé dans Google Drive et ré-exporté en PDF jouissait du privilège de voir ses métadonnées crées par cette petite ruse. Sans succès. Plutôt que simplement produire un PDF en exportant sous ce format avec OpenOffice ou Word, ce qui, je le redis, ne produit pas un fichier indexable, je me suis dit que Adobe Reader DC en version gratuite permettait peut-être de résoudre la question. Mais bon, Reader en version gratuite ne permet pas de créer un PDF, il force la bascule en version payante.

J’ai ensuite fait un test dans la version payante de Microsoft Word dans Office 365 et sa fonction Fichier > Partager > Envoyer au format PDF puis Eureka! Les métadonnées du PDF ont été reconnues par Zotero. Par contre, la méthode de choix en matière de moissonnage des champs bibliographiques s’est montrée peu convaincante. Mon nom de famille a suivi mais mon prénom est devenu « Par ».

Ainsi, pour s’assurer de produire des PDF aux métadonnées indexables et reconnaissables par Zotero, il semble que nous devions donc utiliser des logiciels payants. Il faut soit s’abonner à Office 365, mais plus certainement à Acrobat Pro DC.

La méthode la plus sûre consiste à créer un PDF ou traiter un fichier textuel dans Acrobat avant de le publier et de le partager. Il faut réaliser une passe dans la fonction Numérisation et OCR puis sauvegarder. Cela a pour effet de transformer une image PDF en texte lisible et interprétable par les logiciels. Il faut ensuite ajuster manuellement les métadonnées sous Fichier > Propriétés du document > métadonnées supplémentaires et > avancées, avant de faire une nouvelle sauvegarde.

En conclusion, il me semble que cet effort est absolument nécessaire pour toute publication sérieuse, nommément lorsqu’elle traite de métadonnées et de découvrabilité.

Pour consulter un document exemplaire sur le plan de ses métadonnées voir Transforming Metadata into Linked Data to Improve Digital Collection Discoverability  par OCLC Research : https://www.oclc.org/research/publications/2021/oclcresearch-transforming-metadata-into-linked-data.html

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.