Article

L’OCR : une technologie pour tous

L’OCR est un des nombreux outils numériques utiles pour la recherche dans des textes longs. Outil fétiche des bibliothécaires et des chercheurs, cet outil peut aussi être utilisé par tout un chacun pour faire des découvertes insoupçonnées sur le Web !

Première page illustrée du compte de Monte-Cristo, d'Alexandre Dumas sur Gallica
Première page illustrée du compte de Monte-Cristo, d’Alexandre Dumas sur Gallica-BNF

L’océrisation, c’est quoi ?

Derrière ce mot compliqué, il y a d’abord un acronyme : l’OCR, Optical Character Recognition (soit la reconnaissance optique des caractères). Cet acronyme décrit une technologie née durant les années 1950 permettant de convertir des documents scannés en un texte qui peut être lu par un programme informatique.

Concrètement, si vous scannez un texte imprimé, vous obtenez une image, c’est-à-dire un ensemble de pixels de différentes couleurs. Si votre ordinateur peut afficher l’image de ce texte, en revanche, il lui est impossible de le reconnaître comme un texte, à savoir un ensemble de caractères formants des mots. Il vous est tout aussi impossible de modifier ce texte, d’en copier-coller un fragment ou d’en modifier la police de caractères, par exemple.

C’est ici qu’interviennent les logiciels de reconnaissance de caractères : ils vont convertir chaque ensemble de pixels en une lettre, et donc chaque « image » de mot en son équivalent textuel. Les logiciels d’OCR parviennent à reconnaître un grand nombre de polices de caractères, et même à convertir certaines écritures manuscrites. Si la production automatique d’un texte manipulable par un traitement de texte va constituer un gain de temps considérable pour des chercheurs qui s’épargnent ainsi la recopie intégrale de textes longs, les fichiers finaux peuvent contenir quelques erreurs. Les logiciels d’OCR peuvent mal reconnaitre certains mots, ajouter des caractères ou des accents en interprétant mal certains défauts du document orignal, et contenir ainsi jusqu’à 20% d’erreurs. Pour les corriger et obtenir un fichier texte impeccable, il faudra en passer par une relecture humaine.

L’OCR, comment s’en servir ?

L’un des grands atouts de l’océrisation, en créant des fichiers informatiques à partir de l’image de textes imprimés, est de permettre la recherche de mots ou de phrases dans des textes longs. C’est notamment très utile lorsque l’on recherche des informations autour d’un sujet précis et que l’on veut se passer de la lecture fastidieuse de plusieurs ouvrages ou numéros de revues.

En permettant des recherches rapides sur des textes disponibles à l’origine seulement au format image, l’OCR est un outil indispensable que l’on soit chercheur, généalogiste ou simple curieux !

Publié le 28/06/2021 - CC BY-SA 4.0

Notre sélection

Collections numérisées et océrisées

Il est d’autant plus facile d’utiliser l’océrisation qu’aujourd’hui, de nombreuses bibliothèques mettent à disposition gratuitement des sites web utilisant cette technologie.

RetroNews - Le site de presse de la BnF

Retronews, un site de la Bibliothèque nationale de France dédiée à la presse ancienne, propose des documents qui sont non seulement scannés, mais aussi océrisés. Un module de recherche, simple ou avancée, permet de faire des recherches parmi l’ensemble des journaux disponibles. Voici un exemple d’utilisation possible :

Logo gallica

Gallica | Bibliothèque numérique de la BnF

Également produit par la BnF, Gallica est un autre site web incontournable. De la même façon, cette plateforme permet de faire des recherches plein-texte dans la plupart de leurs livres anciens numérisés. Actuellement, on trouve sur Gallica plus de 8 millions de documents, qui peuvent, pour la plupart, être téléchargés au format PDF, JPEG ou même Epub. 

À la Bpi

À la Bpi, vous pouvez aussi bénéficier de nombreux sites web gratuits pour faire des recherches dans des archives de presse. Seule contrainte à garder en tête pour ces trois sites : les recherches doivent être faites en anglais et il faut être à la Bpi pour y accéder.

Logo Vogue Archive

Vogue Archives

Ce site web permet de faire des recherches plein-texte dans toutes les archives de la revue Vogue US, depuis le premier numéro en 1898 jusqu’à aujourd’hui en 2021. C’est donc un outil incontournable quand on s’intéresse à l’histoire de la mode, d’un vêtement, d’un photographe, d’une personnalité… en permettant de retrouver rapidement tous les articles évoquant le sujet souhaité.

The Economist

The Economist Archive

Ce site fait apparaître les articles correspondant aux termes recherchés, ainsi que des rapports statistiques. Malgré son titre spécialisé, cette archive de presse permet de brasser plus largement l’histoire économique, politique et culturelle mondiale pour tout le 20e siècle.

The Times

Times Literary Supplement

  • Comme la ressource précédente, le supplément littéraire du Times permet des recherches dans un grand nombre d’articles numérisés et océrisés. 
Rédiger un commentaire

Les champs signalés avec une étoile (*) sont obligatoires

Réagissez sur le sujet