[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: xargs für url-listen?



Michelle Konzack schrieb:

> Machste dann ein Array aus den URLs?  Ich hatte das mit perl ein
> bischen versucht, nur bin ich dann in Speicher schwierigkeiten
> geraten wobei die 4 GByte nicht genug waren...

Nein, den ein Array lässt sich nicht 'schön' durchsuchen, entweder nur
linear oder es muss sortiert sein. Handelt sich eher um eine Hash-Table,
das gibt zwar etwas Overhead aber ist insgesammt schneller (und ich kam
auch mit 2G Speicher für meine Liste aus). Nur ich persönlich hab eine
Abneigung gegen Speicherwahn und würde für ernste Anwendungen eher eine
BerkeleyDB oder sowas nehmen.

> Die URL's sind ja bereits drin, nur teste ich derzeit jeden
> eingehenden URL gegen die Liste...  was bei über 200 URLs
> pro Sekunde ne nette Last gibt...

Also wenn's nur darum geht, in einer Sekunde zu prüfen, ob 200 URLs im
Bestand sind oder nicht, stellt das doch noch kein Problem dar. Mein
kleines Snippet hat ja auch 43k URLs pro Sekunde abgeleichen können.
Wobei natürlich ein SQL-Query längert dauert, aber 200/s sollten auch da
kein Problem sein eigentlich.

Aber das führt mich zum Thema, dass SQL-Datenbanken nicht immer das
heilige Mittel der Wahl sind.

> Naja, ich habe auch ein paar URLs des FBI und der CIA im Cache.
> Man muß ja bischen auf dem laufenden sein...

Und dann warte bis die NSA kommt :-)

> Dachte mir auch, das ich alles in den Speicher lade und von dort
> aus arbeite und das Ergebnis in die PostgreSQL zurück schiebe.

Im Speicher ist sicher am schnellsten, doch für gewöhnlich ist
Hauptspeicher auch am schnellsten 'alle'.

Cheers,
Jan

Attachment: signature.asc
Description: OpenPGP digital signature


Reply to: