Michelle Konzack schrieb: > Machste dann ein Array aus den URLs? Ich hatte das mit perl ein > bischen versucht, nur bin ich dann in Speicher schwierigkeiten > geraten wobei die 4 GByte nicht genug waren... Nein, den ein Array lässt sich nicht 'schön' durchsuchen, entweder nur linear oder es muss sortiert sein. Handelt sich eher um eine Hash-Table, das gibt zwar etwas Overhead aber ist insgesammt schneller (und ich kam auch mit 2G Speicher für meine Liste aus). Nur ich persönlich hab eine Abneigung gegen Speicherwahn und würde für ernste Anwendungen eher eine BerkeleyDB oder sowas nehmen. > Die URL's sind ja bereits drin, nur teste ich derzeit jeden > eingehenden URL gegen die Liste... was bei über 200 URLs > pro Sekunde ne nette Last gibt... Also wenn's nur darum geht, in einer Sekunde zu prüfen, ob 200 URLs im Bestand sind oder nicht, stellt das doch noch kein Problem dar. Mein kleines Snippet hat ja auch 43k URLs pro Sekunde abgeleichen können. Wobei natürlich ein SQL-Query längert dauert, aber 200/s sollten auch da kein Problem sein eigentlich. Aber das führt mich zum Thema, dass SQL-Datenbanken nicht immer das heilige Mittel der Wahl sind. > Naja, ich habe auch ein paar URLs des FBI und der CIA im Cache. > Man muß ja bischen auf dem laufenden sein... Und dann warte bis die NSA kommt :-) > Dachte mir auch, das ich alles in den Speicher lade und von dort > aus arbeite und das Ergebnis in die PostgreSQL zurück schiebe. Im Speicher ist sicher am schnellsten, doch für gewöhnlich ist Hauptspeicher auch am schnellsten 'alle'. Cheers, Jan
Attachment:
signature.asc
Description: OpenPGP digital signature