Re: Strumento per cercare nelle descrizioni dei pacchetti Debian
Il 19 dicembre 2015 20:33, Fabio ha scritto:
> Nel mondo delle tecnologie Big Data si utilizzano programmi per ricerche
> testuali come solr[4] e elasticsearch[5].
> Questi strumenti sono utilizzati per effettuare ricerche testuali anche
> su grandi quantità di dati.
> [4] https://lucene.apache.org/solr/
> [5] https://www.elastic.co/products/elasticsearch
un problema però è scaricando il file delle traduzioni come faccio
ora, la frasi che in un .po diventerebbero "fuzzy" scompaiono da
Translation-it e quindi non le troveresti nel motore di ricerca
proprio quando ti servono come punto di partenza
ho provato elasticsearch e "qualcosa" si ottiene facilmente, basta
convertire il file delle traduzioni in json (poi ci andrebbe costruita
un'interfaccia utente e aggiunte le frasi originali inglesi), se
qualcuno vuole fare una prova di importazione, ho scritto questo,
mando il suo output direttamente a curl, come da riga di esempio:
#!/usr/bin/env python3
# Daniele Forsi 20/12/2015 CC0
# Usage:
# ./control2json.py|curl -s -XPOST
localhost:9200//debian/packages/_bulk --data-binary @/dev/stdin
>/dev/null
# curl -XGET 'localhost:9200/debian/packages/_count?pretty'
import json
filename = "Translation-it"
index = json.dumps({"index": {}})
with open(filename) as f:
item = {"Long-Description": ""}
for line in f.readlines():
if line.startswith(" "):
item["Long-Description"] += line[1:]
elif line == "\n":
print(index)
print(json.dumps(item))
item = {"Long-Description": ""}
else:
key, value = line.strip("\n").split(": ", 1)
item[key] = value
--
Daniele Forsi
Reply to: