J'ai entrepris de numériser La Forme d'une ville, de Julien Gracq.

La forme d'une ville, pages 10 et 11

L'été dernier, j'ai eu grand plaisir à lire ce texte sur papier, à la fois parce qu'il s'agissait du premier livre non massicoté, aux cahiers encore fermés que je lisais (j'en ouvrais les pages au fur et à mesure de la lecture à la lame de rasoir), et à la fois parce que la ville dont Gracq décrit la forme est ma ville, Nantes.

Toutefois, j'aimerais disposer de cet ouvrage sur ma liseuse, pour le relire d'une autre manière, savoir que je l'ai dans la poche au besoin.

À ma connaissance il n'existe pas de version numérique de ce texte, ni d'aucun livre de Gracq d'ailleurs. C'est dommage. J'ai quatre livres de cet auteur dont deux (La presqu'île et Un balcon en forêt) semblent être des fac-similés d'éditions plus anciennes ; les caractères sont irrégulièrement imprimés, mal alignés et bouchés. Comment cela est-il envisageable aujourd'hui sur des éditions récentes et sur des textes de Gracq qui plus est !? Cela dessert manifestement le texte, là où une édition moderne (ou version numérique) offrirait un meilleur aspect.

Bref. La numérisation de l'ouvrage est aussi un prétexte à jouer avec l'OCR. La tâche est simple mais lente, voire rébarbative et je cherche à améliorer le processus de numérisation.

Le protocole

  • Le livre fait 213 pages ;
  • Je les prends une à une en photo noir et blanc (quelques essais sur double page me montrent que la reconnaissance est moins bonne sur la page la plus courbée et je n'ai pas envie de casser la reliure de l'ouvrage juste pour la numérisation) ;
  • sur Linux, j’extrais le texte du fichier avec Tesseract, en ligne de commande, image par image. Ce logiciel sort des numérisations quasi sans défaut, c'est assez impressionnant.

Tesseract ne peut pas travailler sur plusieurs images à la fois, seulement image par image ; c'est un souci car le travail est très lent. J'ai cru comprendre que l'on pouvait créer un script dans un autre langage pour automatiser le travail de Tesseract. Malheureusement je ne sais pas faire cela (si d'aventure vous savez faire, ça m'intéresse).

Enfin, pour l'instant je travaille en JPEG. Ça marche très bien mais Tesseract travaille apparemment mieux sur des fichiers TIFF. Je vais peut-être voir à créer un script Gimp pour passer d'un format à l'autre, en optimisant l'image au passage.

Par la suite, il faudra reprendre les textes numérisés pour en revoir le formatage (coupures de mots, typographie, coquilles). Mais je suis encore très loin de cette étape.

Extrait brut d'OCR de la photographie ci-haut :

Je ne peux dire pourquoi Nantes est restée ma
ville sans éclaircir d‘abord les raisons qui font
qu’Angers ne l’a jamais été. Car tout: les com—
modités, la distance, le pli administratif, les rela-
tions de famille et de commerce, liait le Saint-
Florent de mon enfance au chef-lieu officiel, où
mon père et ma mère avaient passé leurs années
de collège, comme le faisaient tous les enfants
des notables, ouvsemi-notables, florentais. Le
parcours, les stations de la ligne qui menait à
Angers, coupée à mi—distance par la halte de
Champtocé (berceau de ma mère et port d’at-
tache de toute la tribu des Belliard) m’ont été
familiers de bonne heure: ils sont même restés
pour moi, comme le mètre à auner les étoffes,
une espèce de référence étalonnee pour la
mesure des voyages. Un des souvenirs les plus
vifs que je garde de la période de la Grande