[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [OCR] tesseract et tesserocr inopérants



Bonjour,

Le 2025-10-27 03:22, Pierre Estrem a écrit :
Est-ce  que je m'y prends mal ou un autre OCR libre vsaurait s'en sortir ?

Je n'ai pas d'avis sur ta façon de faire, mais tu trouveras en P.J. le script que j'utilise avec pas mal de succès. Il n'est pas complètement de moi, je ne me souviens plus trop ce que j'ai pris/trouvé et où ni ce que j'ai ajouté.

Sébastien
#!/bin/sh

while getopts "a:t:k:s:" option; do
	case $option in
		a)
			author="$OPTARG"
			;;
		t)
			title="$OPTARG"
			;;
		k)
			keywords="$OPTARG"
			;;
		s)
			subject="$OPTARG"
			;;
	esac
done
shift $((OPTIND-1))

FILE=$1

if [ -z "$FILE" ]; then
	>&2 echo "Too few arguments"
	exit 1
fi

if [ -z "$title" ]; then
	echo -n "Titre : "; read title
	echo -n "Auteur: "; read author
	echo -n "Mots-clé : "; read keywords
	echo -n "Sujet : "; read subject
fi

PAGE_COUNT=$(exiftool "$FILE" | grep "^Page Count" | awk '{print $4}')

# Traitement page par page
for PAGE in $(seq --equal-width 1 $PAGE_COUNT); do
	echo "Traitement de la page $PAGE"

	TMPFILE=/tmp/ocr-$$-page-${PAGE}.pdf

	# Extraction de la page du PDF
	pdftk "$FILE" cat $PAGE output $TMPFILE

	# Conversion en TIFF
	convert -density 300 -type TrueColor "$TMPFILE" -depth 8 "${TMPFILE%.pdf}.tiff"

	# Extraction du texte
	OMP_THREAD_LIMIT=1 tesseract -l fra "${TMPFILE%.pdf}.tiff" "${TMPFILE%.pdf}-ocr" pdf

	# Suppression du fichier TIFF et de la page PDF image
	rm "${TMPFILE%.pdf}.tiff" $TMPFILE
done

# Assemblage des pages
pdftk /tmp/ocr-$$-page-*.pdf cat output "${FILE%.pdf}-ocr.pdf"

# Suppression de fichiers page-simple
rm /tmp/ocr-$$-page-*-ocr.pdf

# Meta-données
exiftool -charset UTF8 -overwrite_original -title="$title" -keywords="$keywords" -subject="$subject" -author="$author" "${FILE%.pdf}-ocr.pdf"

mv "${FILE%.pdf}-ocr.pdf" "$FILE"

Reply to: