Re: [OCR] tesseract et tesserocr inopérants

To: debian-user-french@lists.debian.org
Subject: Re: [OCR] tesseract et tesserocr inopérants
From: Sébastien NOBILI <s-liste-debian-user-french@pipoprods.org>
Date: Tue, 28 Oct 2025 08:59:08 +0100
Message-id: <[🔎] 1d10d6509b8933a68002bf851c1c3d9b@pipoprods.org>
In-reply-to: <[🔎] 9591e07a-b120-4e25-b583-7eb986ac7fa0@infinityyyy.com>
References: <[🔎] 9591e07a-b120-4e25-b583-7eb986ac7fa0@infinityyyy.com>

Bonjour,

Le 2025-10-27 03:22, Pierre Estrem a écrit :

Est-ce que je m'y prends mal ou un autre OCR libre vsaurait s'ensortir ?

Je n'ai pas d'avis sur ta façon de faire, mais tu trouveras en P.J. lescript que j'utilise avec pas mal de succès.Il n'est pas complètement de moi, je ne me souviens plus trop ce quej'ai pris/trouvé et où ni ce que j'ai ajouté.


Sébastien

#!/bin/sh

while getopts "a:t:k:s:" option; do
	case $option in
		a)
			author="$OPTARG"
			;;
		t)
			title="$OPTARG"
			;;
		k)
			keywords="$OPTARG"
			;;
		s)
			subject="$OPTARG"
			;;
	esac
done
shift $((OPTIND-1))

FILE=$1

if [ -z "$FILE" ]; then
	>&2 echo "Too few arguments"
	exit 1
fi

if [ -z "$title" ]; then
	echo -n "Titre : "; read title
	echo -n "Auteur: "; read author
	echo -n "Mots-clÃ© : "; read keywords
	echo -n "Sujet : "; read subject
fi

PAGE_COUNT=$(exiftool "$FILE" | grep "^Page Count" | awk '{print $4}')

# Traitement page par page
for PAGE in $(seq --equal-width 1 $PAGE_COUNT); do
	echo "Traitement de la page $PAGE"

	TMPFILE=/tmp/ocr-$$-page-${PAGE}.pdf

	# Extraction de la page du PDF
	pdftk "$FILE" cat $PAGE output $TMPFILE

	# Conversion en TIFF
	convert -density 300 -type TrueColor "$TMPFILE" -depth 8 "${TMPFILE%.pdf}.tiff"

	# Extraction du texte
	OMP_THREAD_LIMIT=1 tesseract -l fra "${TMPFILE%.pdf}.tiff" "${TMPFILE%.pdf}-ocr" pdf

	# Suppression du fichier TIFF et de la page PDF image
	rm "${TMPFILE%.pdf}.tiff" $TMPFILE
done

# Assemblage des pages
pdftk /tmp/ocr-$$-page-*.pdf cat output "${FILE%.pdf}-ocr.pdf"

# Suppression de fichiers page-simple
rm /tmp/ocr-$$-page-*-ocr.pdf

# Meta-donnÃ©es
exiftool -charset UTF8 -overwrite_original -title="$title" -keywords="$keywords" -subject="$subject" -author="$author" "${FILE%.pdf}-ocr.pdf"

mv "${FILE%.pdf}-ocr.pdf" "$FILE"

Reply to:

References:
- [OCR] tesseract et tesserocr inopérants
  - From: Pierre Estrem <pierre.estrem@infinityyyy.com>

Prev by Date: Re: [OCR] tesseract et tesserocr inopérants
Next by Date: Re: [OCR] tesseract et tesserocr inopérants
Previous by thread: Re: [OCR] tesseract et tesserocr inopérants
Next by thread: Utilisation (sous Debian/Testing) d'un écran ViewSonic IFP6550-3)
Index(es):
- Date
- Thread