[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Strumento per cercare nelle descrizioni dei pacchetti Debian



Il 19 dicembre 2015 20:33, Fabio ha scritto:

> Nel mondo delle tecnologie Big Data si utilizzano programmi per ricerche
> testuali come solr[4] e elasticsearch[5].
> Questi strumenti sono utilizzati per effettuare ricerche testuali anche
> su grandi quantità di dati.

> [4] https://lucene.apache.org/solr/
> [5] https://www.elastic.co/products/elasticsearch

un problema però è scaricando il file delle traduzioni come faccio
ora, la frasi che in un .po diventerebbero "fuzzy" scompaiono da
Translation-it e quindi non le troveresti nel motore di ricerca
proprio quando ti servono come punto di partenza

ho provato elasticsearch e "qualcosa" si ottiene facilmente, basta
convertire il file delle traduzioni in json (poi ci andrebbe costruita
un'interfaccia utente e aggiunte le frasi originali inglesi), se
qualcuno vuole fare una prova di importazione, ho scritto questo,
mando il suo output direttamente a curl, come da riga di esempio:

#!/usr/bin/env python3

# Daniele Forsi 20/12/2015 CC0

# Usage:
# ./control2json.py|curl -s -XPOST
localhost:9200//debian/packages/_bulk --data-binary @/dev/stdin
>/dev/null
# curl -XGET 'localhost:9200/debian/packages/_count?pretty'

import json

filename = "Translation-it"

index = json.dumps({"index": {}})
with open(filename) as f:
    item = {"Long-Description": ""}
    for line in f.readlines():
        if line.startswith(" "):
            item["Long-Description"] += line[1:]
        elif line == "\n":
            print(index)
            print(json.dumps(item))
            item = {"Long-Description": ""}
        else:
            key, value = line.strip("\n").split(": ", 1)
            item[key] = value

-- 
Daniele Forsi


Reply to: