[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [OCR] tesseract et tesserocr inopérants



Bonsoir Didier, Bernard, et le Monde libre,

Didier, je regrette que tu ais perdu ton temps à décrire la photo car elle n'a guère d'intérêt pour moi.
Quant au texte qui m'intéresse il paraît qu'il est lisible.

L'article provient de La Dépêche du Midi qui dénonce lapratique d'un installateur en photovoltaïque qui a des pratiques de voleur.
J'ai un doute d'avoir le droit de mettre le PDF en ligne sur mon site !!

Le sujet d'extraire du texte d'une image m'intéresse forcément et j'en ferais profiter la communauté de bigles. Je vais appliqer vos recommandations jusque un certain point car c'est lourd. J'imaginais qu'il fallait augmenter le contraste ou le gamma pour faire ressortir le texte. Je vais débuter avec 'convert' que je connais dans une boucle jusque espérer entendre quelque chose compréhensible.


Merci encore ! :)
--
Pierre Estrem




Le 27/10/2025 à 08:06, didier gaumet a écrit :
Le 27/10/2025 à 03:22, Pierre Estrem a écrit :
Bonjour,

Du fait que je sois presque aveugle je ne peux pas accéder à un document PDF constitué uniquement d'images.

J'ai obtenu 4 images qui le composent avec :
pdfimages -png article.pdf images
Malheureusement ni tesseract en Bash ni le module tesserocr en Python parviennent à extraire quoi que ce soit (empty).
Elles sont ici :
https://infinityyyy.com/images/

Est-ce  que je m'y prends mal ou un autre OCR libre vsaurait s'en sortir ?

Merci
--
Pierre Estrem

Bonjour Pierre,

J'espère que d'autres plus compétents que moi te répondront sur le traitement OCR.

- J'ai ouvert la première image pour me faire une idée: du point de vue textuel, elle ne contient qu'un intitulé en haut à gauche (Images Urbasolar) et une grosse lettre "D" en blanc sur fnd rouge en haut à droite.
- La deuxième image est blanche
- La troisième image montre un panneau d'entrée d'une société (Flotis) dans une zone industrielle, avec un plan des bâtiments et quelques détails écrits mais quasi illisibles (manque de définition) - La quatrième image est une image de profil utilisateur générique telle que l'on e trouve pour des gestionnaires de connexion (gdm, lightdm...) et ne contient pas de texte.

Donc ça me paraît normal qu'un outil de reconnaissance de caractères ne puisse faire quoi que ce soit.

1) pour faire prendre en compte par Tesseract les textes dans les photos, il est peut-être (je n'y connais rien) nécessaire ou utile, soit de passer préalablement par un outil de traitement d'image (genre GIMP ou autre) pour transformer l'image en noir et blanc (même pas des nuances de gris, ou très peu, je suppose en mettant le contraste à fond), afin que l'outil d'OCR puisse discerner du texte. Il y a peut-être aussi des options de Tesseract utiles à cet effet (Traineddata Files de type tessadata_best). La doc Tesseract semble aussi pointer vers un add-on (ClearText) qui pourrait t'intéresser, susceptible de rendre le texte intégré aux images plus clair et détectable:
https://github.com/ajinkya933/ClearText
il y a peut-être d'autres add-ons intéressants (je n'en ai pas vu mais j'ai regardé vraiment en diagonale): https://tesseract-ocr.github.io/tessdoc/User-Projects-%E2%80%93-3rdParty.html Tesseract conseille des optimisations pour améliorer l'OCR (trasnformation en noir et blanc, etc...):
https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html
Globalement la doc Tesseract est là:
https://tesseract-ocr.github.io/tessdoc/
ça va te faire beaucoup de lecture ;-)

2) ça n'a peut-être pas d'intérêt pour toi dans ta démarche actuelle, mais au cas où, je mentionne que je n'y connais rien donc j'ai cherché sur internet avec le motif "logiciel analyse descriptive image" et ça m'a amené sur des trucs en ligne de ce genre:
https://imageprompt.org/fr/describe-image
qui affiche cette description (qui me semble assez pertinente) de ta première image: "L'image aérienne présente un vaste champ de panneaux solaires qui s'étend sur une grande surface, suggérant un projet d'énergie renouvelable. La composition de la scène est dominée par l'étendue des panneaux solaires, qui sont disposés en rangées ordonnées sur un terrain légèrement vallonné. Au fond, on aperçoit une zone industrielle avec des bâtiments et une cheminée. En bas à droite, il y a un parking et des bâtiments. La prise de vue est réalisée en plongée, offrant une vue d'ensemble du site et permettant de saisir l'ampleur du projet. L'agencement des éléments crée une impression de symétrie et d'efficacité, tout en révélant une interaction entre l'environnement construit et le paysage naturel. Le sujet principal est l'ensemble des panneaux solaires, qui sont disposés de manière à maximiser l'exposition au soleil. Ces panneaux ont une surface sombre et réfléchissante, créant un contraste visuel avec le reste du paysage. On remarque également un ensemble de bâtiments, dont un avec une cheminée qui semble être une centrale thermique ou une usine. La disposition des éléments suggère une transition entre les sources d'énergie traditionnelles et les sources d'énergie renouvelable. La photographie semble être réalisée avec un drone ou un avion, permettant une vue aérienne. La qualité de l'image est bonne, avec une bonne netteté et une bonne exposition. L'utilisation d'une perspective plongeante permet de mettre en valeur l'ampleur du champ de panneaux solaires. Le style est documentaire, avec un souci de représenter fidèlement le sujet. L'environnement est ensoleillé, avec un ciel bleu clair. La lumière naturelle éclaire l'ensemble de la scène, créant des ombres douces et définissant les volumes. Le terrain est bordé d'arbres, ce qui ajoute de la profondeur et du contexte. L'atmosphère est claire et propre, donnant une impression de modernité et d'engagement envers les énergies renouvelables." Je mentionne juste ça car je ne connaissais pas ce genre de truc et je pense que ça peut être utile dans certains cas

Bon courage à toi pour faire apparaître tes textes:-)



Reply to: