[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: gb <==> big5 conversion module (32K attached)



Yong Li wrote:

> Hello everyone,
>
> Attached (attachment 1) is the gb-big5 gconv module as promised. The source
> file is too big ( > 100k) to mail to this list. If you want email me ask
> for it

rigel:
    不知道這個GB2312<=>BIG5模塊的轉換機制是什麼?麻煩email源碼給我。我曾經收集過
這方面的轉換表,然後自己做了一個(如果感興趣我給你一份)。但是問題多多。主要是
繁體字和簡體字的轉換問題。比如碰到"乾(幹)凈""乾坤"這類詞就很麻煩。我想基于詞
和GBK的轉換成功率會高一些。這主要基于2個假設:1,在有意義的漢語句子中,詞組
是最小的組織單位。我曾經用詞組識別GB2312和BIG5的句子,成功率極高;2,GBK包括了
BIG5中的字。在實現上BIG5=>GB2312簡單一些,BIG5=>GBK=>(繁體詞=>簡體詞)=>GB2312。
因為繁體字=>簡體字是多對一的關系,沒有繁體詞=>簡體詞這步轉換也沒有多少影響。反之
是一對多的關系,只有通過詞來識別了。Gb2312=>(簡體詞=>繁體詞)=>GBK=>BIG5。
    但是這個方案是又大又慢,對于輸入流要先分句再分詞,復雜無比。所以請大家討論
一個可行的方案。

    祝大家新春快樂!

-- 
| This message was re-posted from debian-chinese-gb@lists.debian.org
| and converted from gb2312 to big5 by an automatic gateway.



Reply to: