Re: gb <==> big5 conversion module (32K attached)

To: debian-chinese-big5@lists.debian.org
Subject: Re: gb <==> big5 conversion module (32K attached)
From: "shuyong" <shuyong@public.nn.gx.cn>
Date: Thu, 25 Jan 2001 23:34:23 +0800
Message-id: <[🔎] 3A70477F.B219A67C@public.nn.gx.cn>
References: <[🔎] 20010114015425.A730@yahoo.com> <[🔎] 20010123025838.A5342@yahoo.com> <[🔎] 3A6EE62A.A3F69DF@public.nn.gx.cn> <[🔎] 20010124225604.A12438@yahoo.com>

rigel wrote:

> On Wed, Jan 24, 2001 at 10:26:50PM +0800, shuyong wrote:
> >     不知道這個GB2312<=>BIG5模塊的轉換機制是什麼？麻煩email源碼給我。
>
> 源碼已發請查收. 若要編譯的話, 需要有 glibc 源碼.
>
> > 這方面的轉換表，然後自己做了一個（如果感興趣我給你一份）。但是問題多多。主要是
> > 繁體字和簡體字的轉換問題。比如碰到"乾(幹)凈""乾坤"這類詞就很麻煩。我想基于詞
>
> 說得很對, 在字這一層次作 GB2312 和 BIG5 之間的轉換不可能 100% 準確. 但
> 我寫的這個 glibc iconv 模塊恰恰是作的簡單的字對字的轉換. 這是因為:
>
> 1. iconv 的工作機制的限制. libc 只能提供基本的支持. 不可能讓 C 函數庫
> 帶上幾十兆的中文辭典. 更高層次上的轉換工作應由應用程序, 如autoconvert,
> 來作. 本模塊的目的並非要取代那些程序.
>
> 2. 近來越來越多的程序開始使用 iconv 來轉碼. 目前的 glibc 不能很好的作
> GB 與 B5 之間的轉換, 所以需要一個專門的模塊.
>
> 3. 簡單的字對字的轉換對于日常的一般應用也夠了. 根據我目前的轉換表和網上的
> 一些字頻數據, 大概計算了一下, GB->B5 轉碼的出錯率小于 0.007, 而 B5->GB的
> 出錯率約為 0.001. 這包括一對多轉換及找不到轉換等所有錯誤. 這些數大概比
> 我寫錯別字的概率還底. :)
>
> 4. 無論以什麼方式轉換. 一份準確完整的字對字的轉換表是不可缺少的基礎.
>
> regards,
> rigel
>

rigel:
    代碼已收到。我沒有想到GB2312=>BIG5的誤差會這麼小。如果這樣，確實只要一個
轉換表就行了。不過分詞模塊也沒有你想象的那麼大。源代碼本身大約10KB，關鍵是詞庫。
我在做GB2312/BIG5識別時，發現常用詞庫大小為220KB是一個閥值，這是MS拼音的詞庫，
一個很完善的常用詞庫大約為800~900KB，這也是拼音詞庫。總的說來，整個模塊不會超過
250KB。
    另外還有一些疑問。GB18030和Unicode3.0是什麼關系？發布它的意義何在？出路何在？
因為xfree86 font討論組明確提到xfree86會提供24bits font的支持，但不會提供
GB18030的支持，好象是因為變長的原因。如果不能顯示，那就毫無意義。

-- 
| This message was re-posted from debian-chinese-gb@lists.debian.org
| and converted from gb2312 to big5 by an automatic gateway.

Reply to:

Follow-Ups:
- Re: 關于 GB18030
  - From: rigel <rigel863@yahoo.com>

References:
- gb <==> big5 conversion module
  - From: Yong Li <rigel863@yahoo.com>
- Re: gb <==> big5 conversion module (32K attached)
  - From: Yong Li <rigel863@yahoo.com>
- Re: gb <==> big5 conversion module (32K attached)
  - From: "shuyong" <shuyong@public.nn.gx.cn>
- Re: gb <==> big5 conversion module (32K attached)
  - From: rigel <rigel863@yahoo.com>

Prev by Date: [Q]Display Chinese(GB) in jfbterm
Next by Date: Re: Debian for ARM710的中文化問題
Previous by thread: Re: gb <==> big5 conversion module (32K attached)
Next by thread: Re: 關于 GB18030
Index(es):
- Date
- Thread