[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: gb <==> big5 conversion module (32K attached)



On Wed, Jan 24, 2001 at 10:26:50PM +0800, shuyong wrote:
>     不知道這個GB2312<=>BIG5模塊的轉換機制是什麼?麻煩email源碼給我。

源碼已發請查收. 若要編譯的話, 需要有 glibc 源碼.

> 這方面的轉換表,然後自己做了一個(如果感興趣我給你一份)。但是問題多多。主要是
> 繁體字和簡體字的轉換問題。比如碰到"乾(幹)凈""乾坤"這類詞就很麻煩。我想基于詞

說得很對, 在字這一層次作 GB2312 和 BIG5 之間的轉換不可能 100% 準確. 但
我寫的這個 glibc iconv 模塊恰恰是作的簡單的字對字的轉換. 這是因為:

1. iconv 的工作機制的限制. libc 只能提供基本的支持. 不可能讓 C 函數庫
帶上幾十兆的中文辭典. 更高層次上的轉換工作應由應用程序, 如autoconvert,
來作. 本模塊的目的並非要取代那些程序.

2. 近來越來越多的程序開始使用 iconv 來轉碼. 目前的 glibc 不能很好的作
GB 與 B5 之間的轉換, 所以需要一個專門的模塊.

3. 簡單的字對字的轉換對于日常的一般應用也夠了. 根據我目前的轉換表和網上的
一些字頻數據, 大概計算了一下, GB->B5 轉碼的出錯率小于 0.007, 而 B5->GB的
出錯率約為 0.001. 這包括一對多轉換及找不到轉換等所有錯誤. 這些數大概比
我寫錯別字的概率還底. :)

4. 無論以什麼方式轉換. 一份準確完整的字對字的轉換表是不可缺少的基礎.

regards,
rigel

-- 
| This message was re-posted from debian-chinese-gb@lists.debian.org
| and converted from gb2312 to big5 by an automatic gateway.



Reply to: