Re: [OCR] tesseract et tesserocr inopérants

To: didier gaumet <didier.gaumet@gmail.com>, debian-user-french@lists.debian.org
Subject: Re: [OCR] tesseract et tesserocr inopérants
From: Pierre Estrem <pierre.estrem@infinityyyy.com>
Date: Mon, 27 Oct 2025 20:13:08 +0100
Message-id: <[🔎] 87896700-e6c3-441c-b3e1-e430c25ab588@infinityyyy.com>
In-reply-to: <[🔎] 10dn5lq$131a$1@ciao.gmane.io>
References: <[🔎] 9591e07a-b120-4e25-b583-7eb986ac7fa0@infinityyyy.com> <[🔎] 10dn5lq$131a$1@ciao.gmane.io>

Bonsoir Didier, Bernard, et le Monde libre,

Didier, je regrette que tu ais perdu ton temps à décrire la photo carelle n'a guère d'intérêt pour moi.

Quant au texte qui m'intéresse il paraît qu'il est lisible.

L'article provient de La Dépêche du Midi qui dénonce lapratique d'uninstallateur en photovoltaïque qui a des pratiques de voleur.

J'ai un doute d'avoir le droit de mettre le PDF en ligne sur mon site !!

Le sujet d'extraire du texte d'une image m'intéresse forcément et j'enferais profiter la communauté de bigles.Je vais appliqer vos recommandations jusque un certain point car c'estlourd.J'imaginais qu'il fallait augmenter le contraste ou le gamma pour faireressortir le texte.Je vais débuter avec 'convert' que je connais dans une boucle jusqueespérer entendre quelque chose compréhensible.



Merci encore ! :)
--
Pierre Estrem




Le 27/10/2025 à 08:06, didier gaumet a écrit :

Le 27/10/2025 à 03:22, Pierre Estrem a écrit :
Bonjour,
Du fait que je sois presque aveugle je ne peux pas accéder à undocument PDF constitué uniquement d'images.
J'ai obtenu 4 images qui le composent avec :
pdfimages -png article.pdf images
Malheureusement ni tesseract en Bash ni le module tesserocr en Pythonparviennent à extraire quoi que ce soit (empty).
Elles sont ici :
https://infinityyyy.com/images/
Est-ce que je m'y prends mal ou un autre OCR libre vsaurait s'ensortir ?
Merci
--
Pierre Estrem
Bonjour Pierre,
J'espère que d'autres plus compétents que moi te répondront sur letraitement OCR.
- J'ai ouvert la première image pour me faire une idée: du point devue textuel, elle ne contient qu'un intitulé en haut à gauche (ImagesUrbasolar) et une grosse lettre "D" en blanc sur fnd rouge en haut àdroite.
- La deuxième image est blanche
- La troisième image montre un panneau d'entrée d'une société (Flotis)dans une zone industrielle, avec un plan des bâtiments et quelquesdétails écrits mais quasi illisibles (manque de définition)- La quatrième image est une image de profil utilisateur génériquetelle que l'on e trouve pour des gestionnaires de connexion (gdm,lightdm...) et ne contient pas de texte.
Donc ça me paraît normal qu'un outil de reconnaissance de caractèresne puisse faire quoi que ce soit.
1) pour faire prendre en compte par Tesseract les textes dans lesphotos, il est peut-être (je n'y connais rien) nécessaire ou utile,soit de passer préalablement par un outil de traitement d'image (genreGIMP ou autre) pour transformer l'image en noir et blanc (même pas desnuances de gris, ou très peu, je suppose en mettant le contraste àfond), afin que l'outil d'OCR puisse discerner du texte. Il y apeut-être aussi des options de Tesseract utiles à cet effet(Traineddata Files de type tessadata_best). La doc Tesseract sembleaussi pointer vers un add-on (ClearText) qui pourrait t'intéresser,susceptible de rendre le texte intégré aux images plus clair etdétectable:
https://github.com/ajinkya933/ClearText
il y a peut-être d'autres add-ons intéressants (je n'en ai pas vu maisj'ai regardé vraiment en diagonale):https://tesseract-ocr.github.io/tessdoc/User-Projects-%E2%80%93-3rdParty.htmlTesseract conseille des optimisations pour améliorer l'OCR(trasnformation en noir et blanc, etc...):
https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html
Globalement la doc Tesseract est là:
https://tesseract-ocr.github.io/tessdoc/
ça va te faire beaucoup de lecture ;-)
2) ça n'a peut-être pas d'intérêt pour toi dans ta démarche actuelle,mais au cas où, je mentionne que je n'y connais rien donc j'ai cherchésur internet avec le motif "logiciel analyse descriptive image" et çam'a amené sur des trucs en ligne de ce genre:
https://imageprompt.org/fr/describe-image
qui affiche cette description (qui me semble assez pertinente) de tapremière image:"L'image aérienne présente un vaste champ de panneaux solaires quis'étend sur une grande surface, suggérant un projet d'énergierenouvelable.La composition de la scène est dominée par l'étendue des panneauxsolaires, qui sont disposés en rangées ordonnées sur un terrainlégèrement vallonné. Au fond, on aperçoit une zone industrielle avecdes bâtiments et une cheminée. En bas à droite, il y a un parking etdes bâtiments. La prise de vue est réalisée en plongée, offrant unevue d'ensemble du site et permettant de saisir l'ampleur du projet.L'agencement des éléments crée une impression de symétrie etd'efficacité, tout en révélant une interaction entre l'environnementconstruit et le paysage naturel.Le sujet principal est l'ensemble des panneaux solaires, qui sontdisposés de manière à maximiser l'exposition au soleil. Ces panneauxont une surface sombre et réfléchissante, créant un contraste visuelavec le reste du paysage. On remarque également un ensemble debâtiments, dont un avec une cheminée qui semble être une centralethermique ou une usine. La disposition des éléments suggère unetransition entre les sources d'énergie traditionnelles et les sourcesd'énergie renouvelable.La photographie semble être réalisée avec un drone ou un avion,permettant une vue aérienne. La qualité de l'image est bonne, avec unebonne netteté et une bonne exposition. L'utilisation d'une perspectiveplongeante permet de mettre en valeur l'ampleur du champ de panneauxsolaires. Le style est documentaire, avec un souci de représenterfidèlement le sujet.L'environnement est ensoleillé, avec un ciel bleu clair. La lumièrenaturelle éclaire l'ensemble de la scène, créant des ombres douces etdéfinissant les volumes. Le terrain est bordé d'arbres, ce qui ajoutede la profondeur et du contexte. L'atmosphère est claire et propre,donnant une impression de modernité et d'engagement envers lesénergies renouvelables."Je mentionne juste ça car je ne connaissais pas ce genre de truc et jepense que ça peut être utile dans certains cas
Bon courage à toi pour faire apparaître tes textes:-)

Reply to:

Follow-Ups:
- Re: [OCR] tesseract et tesserocr inopérants
  - From: didier gaumet <didier.gaumet@gmail.com>
- Re: [OCR] tesseract et tesserocr inopérants
  - From: didier gaumet <didier.gaumet@gmail.com>

References:
- [OCR] tesseract et tesserocr inopérants
  - From: Pierre Estrem <pierre.estrem@infinityyyy.com>
- Re: [OCR] tesseract et tesserocr inopérants
  - From: didier gaumet <didier.gaumet@gmail.com>

Prev by Date: Re: Utilisation (sous Debian/Testing) d'un écran SonicView IFP6550-3)
Next by Date: Re: [OCR] tesseract et tesserocr inopérants
Previous by thread: Re : Re: [OCR] tesseract et tesserocr inopérants
Next by thread: Re: [OCR] tesseract et tesserocr inopérants
Index(es):
- Date
- Thread