[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

[FWD] 中國機器翻譯的世紀回顧



[posted and mailed]
中國機器翻譯的世紀回顧

文/董振東 (2000/07/06 )   

  在世界范圍內,機器翻譯的研究與開發已經走過了50年的歷史。我國機器翻譯的研究開始於
1956年。1959年,中國的機器翻譯研究者成功地進行了中國首次機器翻譯試驗表演。中國是世界上
第五個進行這種實驗的國家。今年應是中國的機器翻譯研究的40周年。在這時刻來作一番世紀回
顧,更有其紀念的意義。

  在進行技術層面的回顧之前,我願就宏觀方面做點介紹。首先,中國的機器翻譯研究從一開始
就得到了國家的高度重視。早在1956年它便以"機器翻譯"/"自然語言的數學理論"列入了當時的《科
學發展綱要》。以後則列為"六五"、"七五",以及"863"等重大科研項目。中國的機器翻譯研究雖然
也有過10年的停滯,但與國外不同,並不是由於對機器翻譯研究本身的中斷投資引起的。其次,中
國的機器翻譯研究從一開始就具有多單位,多方面不同知識結構人員的協同攻關的特點。這是這項
研究自身的特點所決定的,它需要至少計算機科學、數學、語言學等多方面知識。

  70年代中期,我國機器翻譯研究從停滯走向了復蘇,是協同攻關的特點體現最充分的時期。當
時在中國科技情報所的組織下集中了許多部委的研究人員在社科院語言所的專家的具體指導下協同
攻關。當時的理想是通過這樣的大協作,開發出系統,培養一批人材,然後把系統帶回各自的單位
投入使用,並在使用過程中繼續完善。雖然遍地開花的良好願望後來沒有實現,但通過五年多的通
力合作,開發出了系統,培養了人才和積累了經驗。在這一時期,還開始向國外派出人員學習和引
進技術,並與當時已在國際享有盛名的機譯研究機構進行了交流。社科院語言所開始培養機器翻譯
專業研究生。在這時期在情報學會和後來中文信息學會下成立了專業委員會,並曾定期地舉行全國
性的學術研討會,還曾出版機器翻譯專刊。

  80年代中期到90年代初期是我國的機器翻譯研究自復蘇以來第二個重要時期。在這一時期裡,
產生過兩個在中國機譯史上具有重要意義的實用化系統。它們分別是軍事科學院研制的"KY-1"英漢
機譯系統,它獲得了國家科技進步二等獎,後來被開發為"譯星",成為中國第一個商品化系統,另
一個是中科院計算所研制的"863-IMT"英漢機譯系統,它獲得了國家科技進步一等獎,它的技術帶來
了十分可觀的效益。這兩個系統也是多單位、多方面人材通力合作的結果。在這一時期裡還有一個
機譯系統是不應被遺忘的。它就是由郵電科研院研制的"MT-IR-EC",這是一個非常實用的通訊題錄
系統,人們利用它翻譯出版通訊題錄刊物,從而使刊物的發行效率得到很大的提高,它因此成為了
第一個榮獲國家科技進步獎的機譯系統。在這一時期裡,中國參加了由日本發起的亞洲五國機器翻
譯研發的合作項目。國內近10個單位參加了這一長達7年的國際項目。這次的大協作對於培養人才、
傳播技術、積累資源(如詞典等),以及使中國的機譯研究走向世界,都有著深遠的影響。另外,這
個時期又正值"七五",它給了更多的單位和研究人員參與機譯研究的機會。在此期間,清華大學和
南京大學研制了實用的日漢機譯系統。中國科大在機譯通用工具方面進行了富有成果的研究。北京
大學研制成功了機譯系統自動評估系統,這在國內外尚屬首例。

  90年代初期至今,中國的機器翻譯走入了快速發展的時期,出現了許多商品化系統。近期的機
譯系統大體上有這樣一些特點:多數配有大規模的多種領域的專業詞典,多數能在網上運行,有相
當不錯的方便用戶的界面。新的應用領域的機器翻譯研究,如對話翻譯系統的研發等也已開始。中
國的機譯研究的水平在總體上從一開始就不低,如今在PC產品、網上系統的開發方面與世界上機譯
研究發達的國家相比並不遜色。

  中國機器翻譯的佔主流地位的技術策略和技術路線是:轉換法,基於規則的,尤其是實用型機
器翻譯。世界其它地方也是如此。在回顧總結半個世紀的經驗時,我想對於實用系統來說,有一些
基本技術現在應是可以肯定的。

  (1)機譯歸根結底是一個語言處理問題,系統需要強大的語言知識的支持;首先機器詞典要有足
夠的詞匯量,常用詞語以英語或漢語論應不低於4萬;為詞典中每個詞語給出的信息癒豐富癒好,一
般分為詞法、句法和語義信息。我國甚至早期的系統在這方面已有明確的體現,如當時有"類屬
組"三級信息。

  (2)語言規則的獲取來自真實的、盡可能多的語料,而不隻限於教科書的例句。中國的具有代表
性的系統都是這樣做的,如70年代在中國科技情報所開發的兩個題錄系統是以5000條雙語冶金題錄
為調查語料的。郵電科研院系統的詞語和語法規則都來自於對INSPEC磁帶數據的調查。隨著近10年
來語料庫利用的發展,更加充分地但又是清醒地利用好語料庫,善於從中獲取知識的方法是很可取
的。 另外,大規模語料庫對於機器翻譯所必需的詞語正確搭配的遴選也是很有效的資源。

  (3)描寫性的語言規則會比過程性的語言規則更好。後者由於同加工過程緊密相關,會增加編寫
規則的難度和系統調試的難度。

  (4)源語言分析中採用多結點、多叉樹、多標記的中間表達被証明是可取的,它優於簡單標記的
方法。

  (5)把語言數據同程序分開,是普遍採用的方法。這樣做便於系統的調試、完善,有利與系統的
擴充。

  (6)系統的友好界面是系統的重要的組成部分,雖然它不算是機譯系統的核心,但它是不應該被
輕視的。

  隨著因特網的出現和發展,機器翻譯的應用前景將更為誘人,也會帶來更好的商機。但應該提
醒的是:今天機譯系統的翻譯質量還很差。50年來譯文質量應該說還未取得實質性的突破,這在世
界范圍內都如此。機器翻譯不但是一個語言處理問題,也可以說是一個知識處理問題。沒有點點滴
滴的、艱苦的知識和經驗的積累,是不可能開發出實用的機譯系統的。現在之所以有的開發周期縮
短了,一則是因為開發者有長期的經驗積累,一則是得到可以共享的資源,而絕不是有什麼"絕
招"。實際上機器翻譯要能真正滿足人們的需求,還有很長的路要走。展望下一個世紀,我們做這樣
的預測,實際上也可以說是我們應該爭取的突破點。

  (1)源語言分析將是大語境的、基於理解的。如今的分析都是孤立的一個句子一個句子進行的,
即單個句子為處理的基本單位。未來的分析將是以句群為單位的。如今的分析求出的是句法關系
樹,充其量是概念的語義關系圖,而不是對文本給出的意思的求解。有人說,簡單的都做不到,那
麼復雜的就更不可能了。其實不然,正是"簡單"了,有些問題才變得無法解決的。現在認為"簡
單"的,幾十年前,不是很復雜的嗎?

  (2)加強基礎研究,特別是常識性知識庫的建設。有的學者提出建設知識詞典,利用它進行基於
理解的分析。筆者經過十多年的努力建立的大型知識系統《知網》,今年已上網供研究免費使用。
它引起了海內外學者的廣泛注意,並已有人在它基礎上開始進行新的探索,如上面介紹的基於理解
的分析以及新的排除歧義的方法。請讀者瀏覽www.how-net.com 網頁。

  (3)機譯系統將出現高度專業化的趨勢。這種系統是為某個特定領域進行調試的,它實際上具備
較充分的專業知識,而不僅僅是隻有一本專業詞典而已。

  (4)基礎性資源的共享,對於類似於機器翻譯這樣的研究來說是大趨勢。如今我們可以在網上獲
得許多很寶貴的有關英語的、日語的資源,也有繁體中文的資源。(可惜簡體中文的太少了。)因特
網提供了一種知識資源共享和知識產權保護的全新的概念和方式。在近兩次世界機器翻譯高峰會上
日本各大計算機公司都介紹了它們如何共享共建機譯系統的專業詞典的做法,值得我們借鑒。在當
今網絡時代,陳舊的知識資源保護手段到頭來封殺的不是別人而是我們自己。

  (5)機器翻譯系統的高度模塊化將有可能帶來未來的機譯系統的組件化。這樣機器翻譯系統的研
發周期有可能大大縮短。開發者可以把更多的力量放在突出自己的特色上和專門化上。

  本文作者為中國中文信息學會常務理事。

  《中國計算機世界》2000第一期,2000/01/03

新浪科技

  其它更多"中文相關"相關文章,請點這裡! 

-- 
| This message was re-posted from debian-simplified-chinese@lists.debian.org
| and converted from gb2312 to big5 by an automatic gateway.



Reply to: