Re: Curiosit? grep

To: debian-italian@lists.debian.org
Subject: Re: Curiosit? grep
From: Alessandro Pellizzari <alex@amiran.it>
Date: Thu, 20 Sep 2007 12:19:35 +0200
Message-id: <[🔎] 1190283576.1604.15.camel@al.mesalab.lan>
In-reply-to: <[🔎] 20070920080208.GA28520@dedalo.nexlab.it>
References: <[🔎] 46F216E5.4050808@grazianotrasmissioni.it> <[🔎] 20070920080208.GA28520@dedalo.nexlab.it>

Il giorno gio, 20/09/2007 alle 10.02 +0200, nextime@nexlab.it ha
scritto:

> > Secondo dubbio, esistono altri modi per parsare un
> > file di tali dimensioni senza aspettare tempi biblici e
> > nel mentre andare a prendersi un caff? molto molto lungo???

> 1- distribuire il lavoro:
> 
> Piu macchina (o piu processori) eseguono calcolo parallelo, quindi qualcosa distribuisce un
> "pezzettino" del file a diversi "grep" o diversi thread che "greppano"
> il loro pezzettino in parallelo.

Non porterebbe alcun vantaggio. Il lavoro pesante di un tale processo e`
la lettura dei dati da disco.
L'elaborazione in memoria e` circa 1000 volte piu` veloce della lettura
dal disco. Se ci aggiungi anche il trasferimento via rete arrivi
tranquillamente a 4-5000 volte.
L'unica cosa da fare sarebbe avere tale file su un RAID (0, 1, 5 o
combinazioni di questi) con diversi dischi, in modo da parallelizzare la
lettura del file. Anche cosi` non si saturerebbe mai la potenza di
elaborazione di una CPU moderna per il confronto tra caratteri.
Tra l'altro mi sembra che l'algoritmo di grep sia uno dei piu`
efficienti (non che ci voglia moltissimo, e` lineare :)

> 2- fare un pre-index
> 
> Quindi il lavoro lungo lo lasci magari in background ala updatedb per il
> locate, e poi tu non fai altro che andare a cercare nel tuo index quando
> hai bisogno il dato e non piu' a rifare il "grep" ogni volta. Questa e'
> la soluzione adattata dai vari beagle e simili ad esempio.

Questo avrebbe gia` piu` senso, ma avresti una hash table su disco che
occupa circa lo stesso spazio del file originale. E comunque dovresti
scriverti tu un software che lo faccia e che acceda al disco in modo
intelligente. Un motore di DB, in pratica. :)

Bye.


-- 
Alessandro Pellizzari

Reply to:

References:
- Curiosità grep
  - From: Andrea Barbaglia <andrea.barbaglia@grazianotrasmissioni.it>
- Re: Curiosit? grep
  - From: nextime@nexlab.it

Prev by Date: qemu e rete
Next by Date: Re: Consiglio su soft x mailing list
Previous by thread: Re: Curiosit? grep
Next by thread: Re: Curiosità grep
Index(es):
- Date
- Thread