[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: fonction find ou locate en mode graphique



Salut Harico,

Merci pour ta longue et détaillée réponse.


Le 23-11-2018, à 15:54:38 +0100, Haricophile a écrit :

Le Fri, 23 Nov 2018 14:54:27 +0100,
steve <dlist@bluewin.ch> a écrit :

Pour rebondir à ce sujet, je cherche (sans vraiment chercher) un bon
moyen de chercher dans des pdf avec une vue des résultats pas trop
rébarbatives et configurable si possible.

Si quelqu'un dans la salle a une suggestion, je suis preneur.

Merci.

Steve

La question se pose de savoir

1. l'étendue de la recherche
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
- Chercher dans un fichier
- chercher dans quelques fichiers ou dossiers

Ce serait plutôt ce cas. Ce sont des pdf professionnelles, organisés par
années puis fonctions (RH, Légal, Finance, etc…)

- chercher dans de vastes ensembles de documents et dossiers

2. Quel type de PDF
~~~~~~~~~~~~~~~~~~~

Dans un PDF on peut trouver :
- des métadonnées
- du texte
- des images et autres contenus sans signification sémantique.

Il y a aussi des images, mais la plupart du temps, c'est sous la forme
de présentations.

- Pour un seul document, il y a quelques outils pour extraires les metadata
 (dont le couteau suisse PDFTK)

Que j'utilise assez souvent pour extraire une partie d'un document pdf.
Marche super bien.

- Pour le texte il y a quelques outils comme pdfgrep ou on peut l'extraire avec
 pdf2text pour manipulation.

J'ai découvert grâce à Klaus ce pdfgrep, et je dois dire que c'est assez
performant.

- Pour les "pdfimage" autre manière de dire un PDF ne contenant qu'une seule
 image genre un document scanné en mode image, pas d'autre solution que
 d'utiliser un OCR et à condition que la qualité de l'image soit suffisante.
 Ou alors passer le temps qu'il faut pour renseigner les metadata (avec pdftk
 ou autre).

Je vais mettre ce cas de côté.


3. Les "moteurs" de recherche.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Comme il y a des moteurs de recherche pour les sites capable de faire ça, il y
a des "desktop search" quand on a de grandes quantités de documents. Pour Gnome
c'est "gnome-tracker" assez performant si on sait manipuler le language sparql
(requêtes proches de SQL en ligne de commande), Baloo beaucoup plus simpliste
sous KDE ou Recoll avec une interface QT. Il y en a d'autre mais ils ont comme
point commun de bouffer pleins de ressources au moment de l'indexation, surtout
si on ouvre les fichiers compressés. Si j'avais un métier documentaire avec de
gros volumes de documents, je mettrais certainement ça sur une machine dédiée.


Ok, je vais voir tout ça.


4. Solution "a ma sauce" :
~~~~~~~~~~~~~~~~~~~~~~~~

Actuellement, la plupart du temps, pour le desktop, j'utilise catfish et je
veille a nommer mes fichiers avec un soucis sémantique :
	musique.initiation.les_clés.2018-11-23.pdf
ou bien :
	./musique/initiation/les_clés.2018-11-23.pdf
c'est plus facile a retrouver que :
	clés-20211sfdfdgl.pdf

On ne peut pas tout mettre dans le nom de fichier, mais en choisissant bien un
peu de "vocabulaire contrôlé" on arrive a retrouver rapidement 99% de ce qu'on
cherche au quotidien.

Par vocabulaire contrôlé, j'entends quelque chose qui ressemble au
fichiers .po :

- vx-bas	= voix basse
- vx-sop	= voix soprano
- i-viol	= instrument violon
- mus-v	= musique vocale
- mus-i	= musique instrumentale
- 2018-11-23 = la date au format ISO qui se trie bien même si elle est
 partielle comme 2018-11 (je classe les photos par date par exemple).

le tout mis dans une hiérarchie bien organisée j'ai des fichiers avec un nom
d'une taille raisonnable et facile a retrouver sans desktop-search. Un éventuel
find + grep et/ou pdfgrep exiv2 ou autre chose peut faire le reste. en cas de
besoin.

Je n'utilise pas le renommage de fichiers car je ne suis pas le seul à
les utiliser. Je préfère les organiser hiérarchiquement, c'est déjà un
tri qui permet de restreindre le champ de recherche.


Merci pour ton input !

Steve



Reply to: