[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Echtzeit-Logfileanalyse



On Sunday 18 February 2007 20:18, Andre Bischof wrote:
> Gebhard Dettmar wrote:
> ...
>
> >> [...]
> >
> > Genau das macht WUMprep auch, nur ohne Cookies, sondern nach einer
> > Heuristik (30 Min. in Folge von einer IP sind eine Session)
>
> Die Heuristik finde ich zu einfach, wegen der Proxyproblematik, IDs oder
> zumindest Useragent o.ä. finde ich da als Erweiterung des IP-Kriteriums
> notwendig.
>
Ja, sollte man meinen. Offenbar funktioniert diese Heuristik in der Praxis 
aber ziemlich gut, s.
http://maya.cs.depaul.edu/~mobasher/papers/wm-siam01.pdf

> ...
>
> >> [...]
>
> Richtig, aber mir geht es hier nicht um eine Analyse der häufigsten
> Klickpfade o.ä., das ist klar, da reichen historische Daten. Mir geht es
> u.a., wenn ich ehrlich bin, auch um Befriedigung meiner Neugierde,
> einfach mal meinen Besuchern ein bißchen über die Schulter schauen zu
> können oder am Beispiel von googlebot mal zu gucken, wie die eigentlich
> meine Site harvesten (o' grausliges Denglisch ;-)
>
Klar, will man ja auch wissen, wenn man an seine Logs kommt. Vielleicht 
ist der Web Utilization Miner WUM noch was für dich (mit Java-GUI): 
http://hypknowsys.sourceforge.net/wiki/The_Web_Utilization_Miner_WUM
Das ist aber ein ziemlich mächtiges Ding mit SQL-ähnlicher Abfragesprache 
etc. Der interessiert sich hauptsächlich für die Nutzerpfade (aggregrated 
logs: wenn 6 Leute die Seiten a-b-e (6) abrufen, und 3 a-b-e-f (3) macht 
er daraus a-b-e (9) -f (3)
Wenn's dich interressiert, ich hab das mal in extenso vorgestellt:
http://www.c-o-k.de/cp_artikel.htm?artikel_id=175

Aber für so ad hoc Fragen wie googlebots würde ich fix greppen
grep -i googlebot your_log |wc -l usw.
Ist sicher bequemer als erstmal logs in irgendwelche Tools zu importieren 
usw.

Gruß gebhard

-- 
Q:	How many mathematicians does it take to screw in a lightbulb?
A:	One.  He gives it to six Californians, thereby reducing the problem
	to the earlier joke.



Reply to: