[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Recherche dans des fichiers pdf par contenu.



On Wed, Oct 22, 2008 at 02:35:47PM +0200,
 kaliderus <kaliderus@gmail.com> wrote 
 a message of 32 lines which said:

> C'est quand même étrange, tous les moteurs de recherche sont
> capables de regarder des contenus pdf mais il n'y aurait rien dans
> la debian ?!...

Bien sûr que si, il y a pdftotext, déjà cité.

Le scrit shell attaché permet de chercher une expression dans les
fichiers PDF du répertoire courant et de ses sous-répertoires.
#!/bin/sh

if [ -z "$1" ]; then
    echo "Usage: $0 regexp" >> /dev/stderr
    exit 1
fi
REGEXP=$1

PDFS=$(find . -name '*.pdf')

for pdf in $PDFS; do
    result=$(pdftotext $pdf - | grep $REGEXP)
    if [ ! -z "$result" ]; then
	echo "$pdf: $result"
    fi
done

Reply to: