Accueil > Participer > Correction d'OCR > Comment ça marche ? >

Le service participatif de correction d'OCR de la Bn-R vous permet d'apporter vos corrections au contenu des documents numérisés et océrisés.

Les services participatifs à Roubaix ?

La correction d'OCR est un nouveau service entièrement gratuit qui a été mis en place dans le cadre de la réouverture du site de la Bibliothèque numérique de Roubaix. Il suffit d'être inscrit sur le site, et d'être connecté à son compte utilisateur.

Qui peut corriger l'OCR des documents numérisés ?

La correction d'OCR des documents est un service gratuit et ouvert à tout le monde ! Il n’est pas nécessaire d’être inscrit à la Grand'Plage ou de résider à Roubaix. Mais vous devez être inscrit et connecté pour pouvoir utiliser ce service (inscription gratuite).

Quels types de documents peuvent être corrigés ?

Seuls certains ensembles numérisés ont bénéficié d'un traitement de reconnaissance optique des caractères. Il s'agit de documents présentant quasi exclusivement du texte, et du texte tapuscrit ou imprimé. Pour le moment, la Bn-R met à la disposition des internautes deux ensembles océrisés : la presse ancienne, et les délibérations et rapports du maire. Mais c'est la presse ancienne, corpus de centaines de milliers de pages très nourries, qui a le plus besoin de votre relecture.

Comment corriger un document ?

Pour corriger un document, rendez-vous dans la section « Correction d’OCR » de la partie participative du site.
Cliquez sur « Je corrige ! ». Vous pouvez alors soit choisir à votre guise un corpus à corriger dans la partie "Tous les dossiers", soit participer au "Défi du moment" qui vous propose des documents à traiter prioritairement.
Une fois cette première sélection effectuée, le site vous soumet un ensemble de résultats. Cliquez sur le document de votre choix pour l'ouvrir dans l'interface spéciale de correction.

Dans ce mode, vous pouvez déplacer l'image et zoomer autant que nécessaire pour obtenir la lisibilité nécessaire au déchiffrement. Vous pouvez bien sûr naviguer de page en page grâce aux boutons situés sous l'image.
Une fois la page choisie, vous pouvez sélectionner le paragraphe ou l'article sur lequel vous souhaitez intervenir. Cette sélection peut se faire soit sur l'image, soit parmi les blocs de texte situés à droite de l'image.
Un clic sur le paragraphe choisi fait apparaître une nouvelle présentation ligne à ligne. C'est au sein de ces blocs-ligne que vous pouvez apporter vos corrections.

Notez que les blocs-lignes en jaune ont été traités par d’autres utilisateurs : vous n'avez pas la possibilité de revenir sur leur travail. Les bloc-ligne blancs sont à traiter. Les blocs-lignes verts sont ceux sur lesquels vous travaillez ou avez déjà travaillé ; vous pouvez y revenir.

Vous pouvez corriger :

- les lacunes (mots, lettres, signes de ponctuation manquants)

- les interprétations fantaisistes du logiciel (mots erronés, suite de caractères dénués de sens)

Il est préférable dans la mesure du possible :

- de corriger l'intégralité des lignes dans le paragraphe sélectionné.

- de ne pas déployer les abréviations afin de restituer le texte d'origine.

- de respecter la "localisation réelle" du ou des mots corrigés, notamment les sections "à l'ancienne" faites par le journal. Il est donc nécessaire de reconstituer le texte tel que le journaliste ou tel que l'imprimeur l'a assemblé.

- de ne pas reconstituer les mots coupés en deux. On peut rajouter 1 tiret d’un mot coupé en deux si la construction de la phrase le permet.

- ne pas intervenir dans les blancs, respecter la casse (chiffres romains et chiffres arabes par exemple), les majuscules, la graphie originale de l’article.

- de corriger également les nombreuses "coquilles" qui apparaissent le plus souvent sous la forme d'une suite de caractères fantaisistes et prennent la place des tirets et des caractères accentués dans les mots.

Attention : la méthode permet la reconnaissance optique des caractères mais pas celle des paragraphes ou des sections faites par le journal. C'est pourquoi dans certains cas, le logiciel a pu confondre deux paragraphes distincts comme étant un seul et même paragraphe, ce qui donne une grille de correction qui intervertit les lignes des paragraphes.

La bonne pratique à avoir dans ce cas est soit de corriger 1 ligne sur 2, soit de corriger les deux paragraphes simultanément mais surtout de ne pas effacer les lignes de texte du ou des paragraphes à proximité de celui que vous seriez en train de corriger. Si c'est le cas, nous devrons refuser la contribution afin que les lignes supprimées soient restaurées.

La Bn-R se réserve le droit de modifier ou de compléter une correction d'OCR incomplète ou inexacte.

Comment garder la trace de mes corrections ?

Vous pourrez consulter via votre espace personnel la liste de toutes les corrections que vous avez effectuées.

L'équipe de la Bn-R reste par ailleurs à votre disposition pour toute information.