[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: gb <==> big5 conversion module (32K attached)



rigel wrote:

> On Wed, Jan 24, 2001 at 10:26:50PM +0800, shuyong wrote:
> >     不知道這個GB2312<=>BIG5模塊的轉換機制是什麼?麻煩email源碼給我。
>
> 源碼已發請查收. 若要編譯的話, 需要有 glibc 源碼.
>
> > 這方面的轉換表,然後自己做了一個(如果感興趣我給你一份)。但是問題多多。主要是
> > 繁體字和簡體字的轉換問題。比如碰到"乾(幹)凈""乾坤"這類詞就很麻煩。我想基于詞
>
> 說得很對, 在字這一層次作 GB2312 和 BIG5 之間的轉換不可能 100% 準確. 但
> 我寫的這個 glibc iconv 模塊恰恰是作的簡單的字對字的轉換. 這是因為:
>
> 1. iconv 的工作機制的限制. libc 只能提供基本的支持. 不可能讓 C 函數庫
> 帶上幾十兆的中文辭典. 更高層次上的轉換工作應由應用程序, 如autoconvert,
> 來作. 本模塊的目的並非要取代那些程序.
>
> 2. 近來越來越多的程序開始使用 iconv 來轉碼. 目前的 glibc 不能很好的作
> GB 與 B5 之間的轉換, 所以需要一個專門的模塊.
>
> 3. 簡單的字對字的轉換對于日常的一般應用也夠了. 根據我目前的轉換表和網上的
> 一些字頻數據, 大概計算了一下, GB->B5 轉碼的出錯率小于 0.007, 而 B5->GB的
> 出錯率約為 0.001. 這包括一對多轉換及找不到轉換等所有錯誤. 這些數大概比
> 我寫錯別字的概率還底. :)
>
> 4. 無論以什麼方式轉換. 一份準確完整的字對字的轉換表是不可缺少的基礎.
>
> regards,
> rigel
>

rigel:
    代碼已收到。我沒有想到GB2312=>BIG5的誤差會這麼小。如果這樣,確實只要一個
轉換表就行了。不過分詞模塊也沒有你想象的那麼大。源代碼本身大約10KB,關鍵是詞庫。
我在做GB2312/BIG5識別時,發現常用詞庫大小為220KB是一個閥值,這是MS拼音的詞庫,
一個很完善的常用詞庫大約為800~900KB,這也是拼音詞庫。總的說來,整個模塊不會超過
250KB。
    另外還有一些疑問。GB18030和Unicode3.0是什麼關系?發布它的意義何在?出路何在?
因為xfree86 font討論組明確提到xfree86會提供24bits font的支持,但不會提供
GB18030的支持,好象是因為變長的原因。如果不能顯示,那就毫無意義。

-- 
| This message was re-posted from debian-chinese-gb@lists.debian.org
| and converted from gb2312 to big5 by an automatic gateway.



Reply to: