Re: [OCR] tesseract et tesserocr inopérants
Le 27/10/2025 à 03:22, Pierre Estrem a écrit :
Bonjour,
Du fait que je sois presque aveugle je ne peux pas accéder à un document
PDF constitué uniquement d'images.
J'ai obtenu 4 images qui le composent avec :
pdfimages -png article.pdf images
Malheureusement ni tesseract en Bash ni le module tesserocr en Python
parviennent à extraire quoi que ce soit (empty).
Elles sont ici :
https://infinityyyy.com/images/
Est-ce que je m'y prends mal ou un autre OCR libre vsaurait s'en sortir ?
Merci
--
Pierre Estrem
Bonjour Pierre,
J'espère que d'autres plus compétents que moi te répondront sur le
traitement OCR.
- J'ai ouvert la première image pour me faire une idée: du point de vue
textuel, elle ne contient qu'un intitulé en haut à gauche (Images
Urbasolar) et une grosse lettre "D" en blanc sur fnd rouge en haut à droite.
- La deuxième image est blanche
- La troisième image montre un panneau d'entrée d'une société (Flotis)
dans une zone industrielle, avec un plan des bâtiments et quelques
détails écrits mais quasi illisibles (manque de définition)
- La quatrième image est une image de profil utilisateur générique telle
que l'on e trouve pour des gestionnaires de connexion (gdm, lightdm...)
et ne contient pas de texte.
Donc ça me paraît normal qu'un outil de reconnaissance de caractères ne
puisse faire quoi que ce soit.
1) pour faire prendre en compte par Tesseract les textes dans les
photos, il est peut-être (je n'y connais rien) nécessaire ou utile, soit
de passer préalablement par un outil de traitement d'image (genre GIMP
ou autre) pour transformer l'image en noir et blanc (même pas des
nuances de gris, ou très peu, je suppose en mettant le contraste à
fond), afin que l'outil d'OCR puisse discerner du texte. Il y a
peut-être aussi des options de Tesseract utiles à cet effet (Traineddata
Files de type tessadata_best). La doc Tesseract semble aussi pointer
vers un add-on (ClearText) qui pourrait t'intéresser, susceptible de
rendre le texte intégré aux images plus clair et détectable:
https://github.com/ajinkya933/ClearText
il y a peut-être d'autres add-ons intéressants (je n'en ai pas vu mais
j'ai regardé vraiment en diagonale):
https://tesseract-ocr.github.io/tessdoc/User-Projects-%E2%80%93-3rdParty.html
Tesseract conseille des optimisations pour améliorer l'OCR
(trasnformation en noir et blanc, etc...):
https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html
Globalement la doc Tesseract est là:
https://tesseract-ocr.github.io/tessdoc/
ça va te faire beaucoup de lecture ;-)
2) ça n'a peut-être pas d'intérêt pour toi dans ta démarche actuelle,
mais au cas où, je mentionne que je n'y connais rien donc j'ai cherché
sur internet avec le motif "logiciel analyse descriptive image" et ça
m'a amené sur des trucs en ligne de ce genre:
https://imageprompt.org/fr/describe-image
qui affiche cette description (qui me semble assez pertinente) de ta
première image:
"L'image aérienne présente un vaste champ de panneaux solaires qui
s'étend sur une grande surface, suggérant un projet d'énergie renouvelable.
La composition de la scène est dominée par l'étendue des panneaux
solaires, qui sont disposés en rangées ordonnées sur un terrain
légèrement vallonné. Au fond, on aperçoit une zone industrielle avec des
bâtiments et une cheminée. En bas à droite, il y a un parking et des
bâtiments. La prise de vue est réalisée en plongée, offrant une vue
d'ensemble du site et permettant de saisir l'ampleur du projet.
L'agencement des éléments crée une impression de symétrie et
d'efficacité, tout en révélant une interaction entre l'environnement
construit et le paysage naturel.
Le sujet principal est l'ensemble des panneaux solaires, qui sont
disposés de manière à maximiser l'exposition au soleil. Ces panneaux ont
une surface sombre et réfléchissante, créant un contraste visuel avec le
reste du paysage. On remarque également un ensemble de bâtiments, dont
un avec une cheminée qui semble être une centrale thermique ou une
usine. La disposition des éléments suggère une transition entre les
sources d'énergie traditionnelles et les sources d'énergie renouvelable.
La photographie semble être réalisée avec un drone ou un avion,
permettant une vue aérienne. La qualité de l'image est bonne, avec une
bonne netteté et une bonne exposition. L'utilisation d'une perspective
plongeante permet de mettre en valeur l'ampleur du champ de panneaux
solaires. Le style est documentaire, avec un souci de représenter
fidèlement le sujet.
L'environnement est ensoleillé, avec un ciel bleu clair. La lumière
naturelle éclaire l'ensemble de la scène, créant des ombres douces et
définissant les volumes. Le terrain est bordé d'arbres, ce qui ajoute de
la profondeur et du contexte. L'atmosphère est claire et propre, donnant
une impression de modernité et d'engagement envers les énergies
renouvelables."
Je mentionne juste ça car je ne connaissais pas ce genre de truc et je
pense que ça peut être utile dans certains cas
Bon courage à toi pour faire apparaître tes textes:-)
Reply to: