Re: [OCR] tesseract et tesserocr inopérants
Bonjour,
Le 2025-10-27 03:22, Pierre Estrem a écrit :
Est-ce que je m'y prends mal ou un autre OCR libre vsaurait s'en
sortir ?
Je n'ai pas d'avis sur ta façon de faire, mais tu trouveras en P.J. le
script que j'utilise avec pas mal de succès.
Il n'est pas complètement de moi, je ne me souviens plus trop ce que
j'ai pris/trouvé et où ni ce que j'ai ajouté.
Sébastien
#!/bin/sh
while getopts "a:t:k:s:" option; do
case $option in
a)
author="$OPTARG"
;;
t)
title="$OPTARG"
;;
k)
keywords="$OPTARG"
;;
s)
subject="$OPTARG"
;;
esac
done
shift $((OPTIND-1))
FILE=$1
if [ -z "$FILE" ]; then
>&2 echo "Too few arguments"
exit 1
fi
if [ -z "$title" ]; then
echo -n "Titre : "; read title
echo -n "Auteur: "; read author
echo -n "Mots-clé : "; read keywords
echo -n "Sujet : "; read subject
fi
PAGE_COUNT=$(exiftool "$FILE" | grep "^Page Count" | awk '{print $4}')
# Traitement page par page
for PAGE in $(seq --equal-width 1 $PAGE_COUNT); do
echo "Traitement de la page $PAGE"
TMPFILE=/tmp/ocr-$$-page-${PAGE}.pdf
# Extraction de la page du PDF
pdftk "$FILE" cat $PAGE output $TMPFILE
# Conversion en TIFF
convert -density 300 -type TrueColor "$TMPFILE" -depth 8 "${TMPFILE%.pdf}.tiff"
# Extraction du texte
OMP_THREAD_LIMIT=1 tesseract -l fra "${TMPFILE%.pdf}.tiff" "${TMPFILE%.pdf}-ocr" pdf
# Suppression du fichier TIFF et de la page PDF image
rm "${TMPFILE%.pdf}.tiff" $TMPFILE
done
# Assemblage des pages
pdftk /tmp/ocr-$$-page-*.pdf cat output "${FILE%.pdf}-ocr.pdf"
# Suppression de fichiers page-simple
rm /tmp/ocr-$$-page-*-ocr.pdf
# Meta-données
exiftool -charset UTF8 -overwrite_original -title="$title" -keywords="$keywords" -subject="$subject" -author="$author" "${FILE%.pdf}-ocr.pdf"
mv "${FILE%.pdf}-ocr.pdf" "$FILE"
Reply to: