[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: fonction find ou locate en mode graphique



Le Fri, 23 Nov 2018 14:54:27 +0100,
steve <dlist@bluewin.ch> a écrit :

> Pour rebondir à ce sujet, je cherche (sans vraiment chercher) un bon
> moyen de chercher dans des pdf avec une vue des résultats pas trop
> rébarbatives et configurable si possible.
> 
> Si quelqu'un dans la salle a une suggestion, je suis preneur.
> 
> Merci.
> 
> Steve

La question se pose de savoir 

1. l'étendue de la recherche
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
- Chercher dans un fichier
- chercher dans quelques fichiers ou dossiers
- chercher dans de vastes ensembles de documents et dossiers

2. Quel type de PDF
~~~~~~~~~~~~~~~~~~~

Dans un PDF on peut trouver :
- des métadonnées
- du texte
- des images et autres contenus sans signification sémantique.

- Pour un seul document, il y a quelques outils pour extraires les metadata
  (dont le couteau suisse PDFTK)

- Pour le texte il y a quelques outils comme pdfgrep ou on peut l'extraire avec
  pdf2text pour manipulation.

- Pour les "pdfimage" autre manière de dire un PDF ne contenant qu'une seule
  image genre un document scanné en mode image, pas d'autre solution que
  d'utiliser un OCR et à condition que la qualité de l'image soit suffisante.
  Ou alors passer le temps qu'il faut pour renseigner les metadata (avec pdftk
  ou autre).


3. Les "moteurs" de recherche.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Comme il y a des moteurs de recherche pour les sites capable de faire ça, il y
a des "desktop search" quand on a de grandes quantités de documents. Pour Gnome
c'est "gnome-tracker" assez performant si on sait manipuler le language sparql
(requêtes proches de SQL en ligne de commande), Baloo beaucoup plus simpliste
sous KDE ou Recoll avec une interface QT. Il y en a d'autre mais ils ont comme
point commun de bouffer pleins de ressources au moment de l'indexation, surtout
si on ouvre les fichiers compressés. Si j'avais un métier documentaire avec de
gros volumes de documents, je mettrais certainement ça sur une machine dédiée.


4. Solution "a ma sauce" :
~~~~~~~~~~~~~~~~~~~~~~~~

Actuellement, la plupart du temps, pour le desktop, j'utilise catfish et je
veille a nommer mes fichiers avec un soucis sémantique :
	musique.initiation.les_clés.2018-11-23.pdf
ou bien :
	./musique/initiation/les_clés.2018-11-23.pdf
c'est plus facile a retrouver que :
	clés-20211sfdfdgl.pdf

On ne peut pas tout mettre dans le nom de fichier, mais en choisissant bien un
peu de "vocabulaire contrôlé" on arrive a retrouver rapidement 99% de ce qu'on
cherche au quotidien.

Par vocabulaire contrôlé, j'entends quelque chose qui ressemble au
fichiers .po :

- vx-bas	= voix basse
- vx-sop	= voix soprano
- i-viol	= instrument violon
- mus-v	= musique vocale
- mus-i	= musique instrumentale
- 2018-11-23 = la date au format ISO qui se trie bien même si elle est
  partielle comme 2018-11 (je classe les photos par date par exemple).

le tout mis dans une hiérarchie bien organisée j'ai des fichiers avec un nom
d'une taille raisonnable et facile a retrouver sans desktop-search. Un éventuel
find + grep et/ou pdfgrep exiv2 ou autre chose peut faire le reste. en cas de
besoin.


Reply to: