L’OCR est un des nombreux outils numériques utiles pour la recherche dans des textes longs. Outil fétiche des bibliothécaires et des chercheurs, cet outil peut aussi être utilisé par tout un chacun pour faire des découvertes insoupçonnées sur le Web !
L’océrisation, c’est quoi ?
Derrière ce mot compliqué, il y a d’abord un acronyme : l’OCR, Optical Character Recognition (soit la reconnaissance optique des caractères). Cet acronyme décrit une technologie née durant les années 1950 permettant de convertir des documents scannés en un texte qui peut être lu par un programme informatique.
Concrètement, si vous scannez un texte imprimé, vous obtenez une image, c’est-à-dire un ensemble de pixels de différentes couleurs. Si votre ordinateur peut afficher l’image de ce texte, en revanche, il lui est impossible de le reconnaître comme un texte, à savoir un ensemble de caractères formants des mots. Il vous est tout aussi impossible de modifier ce texte, d’en copier-coller un fragment ou d’en modifier la police de caractères, par exemple.
C’est ici qu’interviennent les logiciels de reconnaissance de caractères : ils vont convertir chaque ensemble de pixels en une lettre, et donc chaque « image » de mot en son équivalent textuel. Les logiciels d’OCR parviennent à reconnaître un grand nombre de polices de caractères, et même à convertir certaines écritures manuscrites. Si la production automatique d’un texte manipulable par un traitement de texte va constituer un gain de temps considérable pour des chercheurs qui s’épargnent ainsi la recopie intégrale de textes longs, les fichiers finaux peuvent contenir quelques erreurs. Les logiciels d’OCR peuvent mal reconnaitre certains mots, ajouter des caractères ou des accents en interprétant mal certains défauts du document orignal, et contenir ainsi jusqu’à 20% d’erreurs. Pour les corriger et obtenir un fichier texte impeccable, il faudra en passer par une relecture humaine.
L’OCR, comment s’en servir ?
L’un des grands atouts de l’océrisation, en créant des fichiers informatiques à partir de l’image de textes imprimés, est de permettre la recherche de mots ou de phrases dans des textes longs. C’est notamment très utile lorsque l’on recherche des informations autour d’un sujet précis et que l’on veut se passer de la lecture fastidieuse de plusieurs ouvrages ou numéros de revues.
En permettant des recherches rapides sur des textes disponibles à l’origine seulement au format image, l’OCR est un outil indispensable que l’on soit chercheur, généalogiste ou simple curieux !
Il est d’autant plus facile d’utiliser l’océrisation qu’aujourd’hui, de nombreuses bibliothèques mettent à disposition gratuitement des sites web utilisant cette technologie.
Retronews, un site de la Bibliothèque nationale de France dédiée à la presse ancienne, propose des documents qui sont non seulement scannés, mais aussi océrisés. Un module de recherche, simple ou avancée, permet de faire des recherches parmi l’ensemble des journaux disponibles. Voici un exemple d’utilisation possible :
Également produit par la BnF, Gallica est un autre site web incontournable. De la même façon, cette plateforme permet de faire des recherches plein-texte dans la plupart de leurs livres anciens numérisés. Actuellement, on trouve sur Gallica plus de 8 millions de documents, qui peuvent, pour la plupart, être téléchargés au format PDF, JPEG ou même Epub.
À la Bpi
À la Bpi, vous pouvez aussi bénéficier de nombreux sites web gratuits pour faire des recherches dans des archives de presse. Seule contrainte à garder en tête pour ces trois sites : les recherches doivent être faites en anglais et il faut être à la Bpi pour y accéder.
Ce site web permet de faire des recherches plein-texte dans toutes les archives de la revue Vogue US, depuis le premier numéro en 1898 jusqu’à aujourd’hui en 2021. C’est donc un outil incontournable quand on s’intéresse à l’histoire de la mode, d’un vêtement, d’un photographe, d’une personnalité… en permettant de retrouver rapidement tous les articles évoquant le sujet souhaité.
Ce site fait apparaître les articles correspondant aux termes recherchés, ainsi que des rapports statistiques. Malgré son titre spécialisé, cette archive de presse permet de brasser plus largement l’histoire économique, politique et culturelle mondiale pour tout le 20e siècle.
XÉtant un service public, nous ne faisons aucun usage commercial des données collectées lors de votre navigation. Nous utilisons les cookies ou technologies similaires pour accéder uniquement à des données personnelles non sensibles stockées sur votre terminal, que nous traitons afin de réaliser des statistiques, mesurer les performances du site, ou permettre des accès à des ressources externes.
Vous pouvez à tout moment revenir sur vos choix en utilisant le lien "Personnaliser". En savoir plusRefuserAccepterPersonnaliser
Politique de confidentialité & cookies
Gestion de vos préférences sur les cookies
Ce site utilise des cookies pour améliorer votre expérience de navigation. Ces cookies sont classés en trois catégories : fonctionnel, statistiques et marketing.
Veuillez retrouver notre politique de gestions de données personnelles et de cookies : page "Informations sur les cookies" et page "Politique de confidentialité"
Ces cookies nous permettent de réaliser des statistiques de mesures d’audiences et de performances en analysant le volume et la source du trafic sur notre site. Ces cookies permettent également d’analyser de façon anonyme le comportement des visiteurs de notre site afin de mesurer et d'améliorer les performances de notre site et de nos campagnes en ligne.
Le recueil de votre consentement n’est pas requis, nous utilisons un logiciel d’analyse d’audience (Matomo) configuré selon les recommandations de la CNIL pour bénéficier de l’exemption de consentement.
https://www.cnil.fr/fr/cookies-et-autres-traceurs/regles/cookies-solutions-pour-les-outils-de-mesure-daudience
Cookie
Type
Durée
Description
_pk_id.*
13 mois
Ce cookie est installé par l'outil d'analyse Web Matomo.
Le cookie _pk_id est utilisé pour stocker des détails sur l'utilisateur tels que l'identifiant unique (ID).
Les cookies créés par Matomo commencent par : _pk_ref, _pk_cvar, _pk_id, _pk_ses.
Pour plus d'informations sur les cookies de Matomo : https://fr.matomo.org/faq/general/faq_146/
_pk_ses.*
30 minutes
Ce cookie est installé par l'outil d'analyse Web Matomo.
Ce cookie _pk_ses de courte durée est utilisé pour stocker temporairement les données de la visite.
Les cookies créés par Matomo commencent par : _pk_ref, _pk_cvar, _pk_id, _pk_ses.
Pour plus d'informations sur les cookies de Matomo : https://fr.matomo.org/faq/general/faq_146/
Les cookies fonctionnels aide à améliorer les performances de certaines fonctionnalités comme partager le contenu du site sur les réseaux sociaux, collecter des retour d'expérience, et autres fonctionnalités.
Cookie
Type
Durée
Description
bcookie
0
2 years
Ce cookie est installé par LinkedIn pour activer les fonctions de LinkedIn sur ce site.
cookielawinfo-checkbox-necessary
0
11 months
Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Nécessaire».
cookielawinfo-checkbox-non-necessary
0
11 months
Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Non nécessaire».
csrftoken
0
11 months
Ce cookie est associé à la plateforme de développement Web Django pour python. Utilisé pour aider à protéger le site Web contre les attaques de falsification de requêtes intersites
lidc
0
1 day
Ce cookie est défini par LinkedIn et utilisé pour le routage.
viewed_cookie_policy
0
11 months
Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.
Les cookies analytiques sont utilisés pour comprendre comment les visiteurs interagissent avec le site. Ces cookies génèrent des informations mesurables sur le nombre de visiteurs, le taux de rebond, la source du trafic etc.
Cookie
Type
Durée
Description
everest_g_v2
0
1 year
Le cookie est défini sous le domaine eversttech.net. Le but du cookie est de mapper les clics sur d'autres événements sur le site Web du client.
GPS
0
30 minutes
Ce cookie est défini par Youtube et enregistre un identifiant unique pour suivre les utilisateurs en fonction de leur emplacement géographique
mc
0
1 year
Ce cookie est associé à Quantserve pour suivre de manière anonyme comment un utilisateur interagit avec le site Web.
MR
0
1 week
Ce cookie est utilisé pour mesurer l'utilisation du site Web à des fins d'analyse.
VISITOR_INFO1_LIVE
1
5 months
Ce cookie est défini par Youtube. Utilisé pour suivre les informations des vidéos YouTube intégrées sur un site Web.
YSC
1
Ces cookies sont définis par Youtube et sont utilisés pour suivre les vues des vidéos intégrées.
Les cookies publicitaires sont utilisés pour procurer une expérience optimale aux visiteurs du site avec des publicités et des campagnes marketing pertinentes. Ces cookies traquent les visiteurs à travers les sites et collectent leurs informations pour générer des publicités personnalisées.
Cookie
Type
Durée
Description
ATN
1
2 years
Ce cookie est installé par atdmt.com et stockent des données sur le comportement de l'utilisateur sur plusieurs sites Web. Les données sont ensuite utilisées pour diffuser des publicités pertinentes aux utilisateurs du site Web.
bito
0
1 year
bitoIsSecure
0
1 year
bscookie
1
2 years
chkChromeAb67Sec
0
2 months
CMID
0
1 year
CMPRO
0
2 months
CMPS
0
2 months
CMST
0
1 day
cref
0
1 year
damd
0
1 year
dc
0
9 years
dmvk
0
dmxId
0
9 months
fr
1
2 months
Le cookie est installé par Facebook pour montrer des publicités pertinentes aux utilisateurs et mesurer et améliorer les publicités. Le cookie suit également le comportement de l'utilisateur sur le Web sur les sites dotés d'un pixel Facebook ou d'un plugin social Facebook.
GED_PLAYLIST_ACTIVITY
0
glassbox-session-id
0
30 minutes
IDE
1
2 years
Utilisé par Google DoubleClick, ce cookie stocke des informations sur la façon dont l'utilisateur utilise le site Web et toute autre publicité avant de visiter le site Web. Ceci est utilisé pour présenter aux utilisateurs des publicités qui les concernent en fonction du profil de l'utilisateur.
KADUSERCOOKIE
0
2 months
KTPCACOOKIE
0
1 day
lang
0
Ce cookie est utilisé pour stocker les préférences linguistiques d'un utilisateur afin de diffuser du contenu dans cette langue stockée lors de sa prochaine visite sur le site Web.
lissc
0
1 year
li_sugr
0
2 months
matchbidswitch
0
1 month
MUID
0
1 year
Utilisé par Microsoft comme identifiant unique. Le cookie est défini par des scripts Microsoft intégrés. Le but de ce cookie est de synchroniser l'ID sur de nombreux domaines Microsoft différents pour permettre le suivi des utilisateurs.
pardot
0
Le cookie est défini lorsque le visiteur est connecté en tant qu'utilisateur Pardot.
personalization_id
0
2 years
Ce cookie est utilisé par Twitter pour intégrer les fonctionnalités de partage de ce média social. Il stocke également des informations sur la manière dont l'utilisateur utilise le site Web pour le suivi et le ciblage.
PUBMDCID
0
2 months
Ce cookie est défini par pubmatic.com. Le cookie stocke un identifiant utilisé pour afficher des publicités sur le navigateur des utilisateurs.
ROUTEID
0
ss
1
9 years
SyncRTB3
0
2 months
TDCPM
0
1 year
Le cookie est défini par le service CloudFlare pour stocker un identifiant unique afin d'identifier un appareil d'utilisateurs qui reviennent, qui est ensuite utilisé pour la publicité ciblée.
TDID
0
1 year
Le cookie est défini par le service CloudFlare pour stocker un identifiant unique afin d'identifier un appareil d'utilisateurs qui reviennent, qui est ensuite utilisé pour la publicité ciblée.
test_cookie
0
11 months
ts
1
1 year
tuuid
0
9 years
Ce cookie est défini par .bidswitch.net. Les cookies stockent un identifiant unique dans le but de déterminer les publicités que les utilisateurs ont vues si vous avez visité l'un des sites Web des annonceurs. Les informations sont utilisées pour déterminer quand et à quelle fréquence les utilisateurs verront une certaine bannière.
u
0
2 months
UserMatchHistory
0
1 month
usprivacy
0
1 year
ut
0
9 years
v1st
0
1 year
viewer_token
0
1 month
wfivefivec
0
1 year
_fbp
0
2 months
Ce cookie est défini par Facebook pour diffuser des publicités lorsqu'ils sont sur Facebook ou sur une plate-forme numérique alimentée par la publicité Facebook après avoir visité ce site Web.
Les champs signalés avec une étoile (*) sont obligatoires