[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Moteur de recherche en texte plein supportant bien les caractères latins



Bonjour,

Je suis nouveau sur cette liste. J'utilise l'informatique depuis plus de
50 ans, mais ne suis pas très compétent en informatique.

Pour un simulateur Internet en prison utilisé pour préparer les
stagiaires détenus à divers certificats exigeant la maîtrise de services
de l'Internet, sans aucune connexion à Internet, depuis environ 10 ans,
nous utilisons le moteur de recherche libre Namazu
(http://www.namazu.org/) dans ses versions successives, tant avec Linux
(Debian) que Windows. Il indexe environ 150 sites et 30 000 pages
essentiellement en français, gérées par Apache, PHP et MySQL. Nous
engageons une mise à jour qui n'a pas été faite depuis 2006.

Malheureusement, même dans les dernières versions nous ne savons pas
faire reconnaître correctement les caractères latins codés en entités
html. Dans les versions précédentes du simulateur, nous convertissions
tous les caractères en iso-8859 sur 8 bits afin qu'ils soient
correctement indexés et retrouvés. C'est un travail assez lourd.

Pour la nouvelle version du simulateur nous cherchons à supprimer cette
opération de manière à alléger l'enrichissement et la mise à jour du
simulateur qui risque d'être nécessaire encore quelques années pour
initier des détenus à l'Internet.

Faute d'avoir trouvé un groupe d'utilisateurs français du logiciel, je
pose la question sur cette liste.

Y aurait-il un paramétrage de Namazu permettant de ne pas avoir à
convertir les caractères accentués dans les pages des sites et les bases
de données MySQL ? Il semble que les moteurs de recherche du Web sachent
bien réaliser ces opérations. Est-il possible de réaliser les mêmes
conversions à la volée avec Namazu ?

Nous sommes une équipe de formateurs bénévoles retraités ne connaissant
pas le japonais (origine du logiciel), ayant un peu de mal avec
l'anglais et sans connaissances des techniques d'indexation et de
filtrage utilisées par Namazu, notamment pour indexer des documents dans
des formats très divers. Nous sommes incapables de comprendre et
modifier les scripts PERL et autres sources.

Je tiens les fichiers de configuration de Namazu à la disposition des
personnes qui connaîtraient ce moteur d'indexation et de recherche.

Y aurait-il d'autres logiciels libres d'indexation et de recherche qui
répondraient aux mêmes besoins et qui traiteraient correctement les
caractères accentués tels qu'ils sont rencontrés sur le Web. J'ai tenté
quelques recherches dans le catalogue Debian sans trouver ce que nous
voudrions : swish-e, hyperestraier, solr, ht/dig.

Merci de votre aide. Librement.

Jean-Yves ROYER
Trésorier du réseau des EPN du Lyonnais
http://www.epndulyonnais.org
Secrétaire de La Mouette
Association de soutien aux projets francophones de bureautique libre,
dont LibreOffice
http://www.lamouette.org
Formateur au CLub Informatique Pénitentiaire
http://www.assoclip.org


Reply to: