Re: R: Problemi di traduzione
On Mon, Oct 28, 2002 at 11:55:04AM +0100, Gianluca Sartori wrote:
> > > ChaSen is a morphological analysys system. It can segment and
> > > tokenize Japanese text string, and can output with many additional
> > > informations (pronunciation, semantic information, and others).
> > >
> > > Utilizzare sillabare per tokenize h corretto?
> I giapponesi utilizzano tre alfabeti, due sillabici
> (in cui ogni simbolo corrisponde ad una sillaba. Ogni parola è
> composta da una o più sillabe/simboli) che sono l'Hiragana e il
> katakana e uno ideogrammatico, il Kangi (in cui ogni simbolo
> corrisponde ad una parola). Quindi il contesto è complesso e il
> "token" (unità lessicale) assume forme diverse a seconda dei simboli
> utilizzati (una parola può essere un simbolo unico o un insieme di
> essi)
Dipende poi cosa intendono per "token". Non è escluso che un token
possa comprendere più parole... quindi non necessariamente le
parole vengono scomposte, ma magari raggruppate assieme.
Sono le frasi che vengono scomposte in unità lessicali.
> > It can segment and
> > tokenize Japanese text string, and can output with many additional
> > informations (pronunciation, semantic information, and others).
>
> "Può segmentare e scomporre del testo in lingua giapponese ed è in
> grado di restituire informazioni addizionali quali indicazioni di
> pronuncia, informazioni semantiche e altro."
"scomporre in unità lessicali"?
--
Matteo De Luigi
Vuoi aiutarci ad avere le descrizioni dei pacchetti Debian in italiano?
http://ddtp.debian.org
Reply to: