[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

[FWD] 機器翻譯漫談



[posted and mailed]
At: http://tech.sina.com.cn/soft/2000-07-06/480.html

機器翻譯漫談

文/董振東 (2000/07/06 )   

  機器翻譯(machine translation),又稱機譯(MT),是利用計算機把一種自然語言轉變成另一
種自然語言的過程。用以完成這一過程的軟件叫做機器翻譯系統。

  世界上許多國家長期以來都一直在從事這項研究。事實上自本世紀40年代電子計算機誕生之日
起就開始了將計算機應用於語言翻譯的探索。我國機器翻譯的研究可以追溯到50年代中期。今年是
我國第一次機器翻譯試驗成功演示的40周年。40年前的那次試驗雖然規模不大,但是在當時已經是
世界水平了。當時世界上能進行這樣試驗的國家實在是屈指可數。半個世紀以來,世界范圍和我國
的機譯研究都曾走過一段曲折的道路,都有過60年代中期以後約10年的停滯或沉寂,不過原因不盡
相同。國外主要是受了美國曾專門組織的一個機構於1966年發表的機譯界無人不曉的ALPAC報告的影
響,紛紛停止了對機器翻譯研究的經費支持。ALPAC報告主要說的是:經過調查,機器翻譯速度慢,
準確率差,比人工翻譯費用高得多,在近期或可以預見的未來,開發出實用的機器翻譯系統是沒有
指望的。 這個報告後來雖曾受到許多嚴肅的批評,認為它是帶有嚴重偏見的,但它還是對機器翻譯
研究造成了很大的損害。直到70年代中期機器翻譯才開始在世界范圍內復蘇並日趨走向興旺。日本
卻是極少數未受世界范圍的停滯影響的國家。80年代初日本幾乎所有的大計算機公司都進行機器翻
譯系統的研究和開發,如富士通、日立、日本電氣、東芝、夏普等。日本在推動機器翻譯研究方面
的貢獻為世界所公認。在它的倡導下,於1987年在日本箱根舉行了第一屆機器翻譯峰會(MT 
Summit),並決定以後每兩年輪流在亞、歐、美定期舉行。不久又相繼成立了亞太機器翻譯協會,歐
洲機器翻譯協會,北美機器翻譯協會,以及國際機器翻譯協會,還定期出版了《機器翻譯通訊》。
今年九月在新加坡舉行了第七屆峰會,它也是本世紀的最後一次峰會,其主題是"迎接新世紀翻譯的
機器翻譯"。我國有代表應邀在"世界各地機譯進展"的主題研討會上介紹了我國的機器翻譯研究和開
發的現狀,還有代表應邀參加了經費投資的主題研討會並介紹了我國各種渠道對機器翻譯研究的投
資狀況。筆者應邀在會前的學術研討會上做了題為《英漢/漢英機器翻譯的過去、現在和未來》的報
告。

  如今機器翻譯對於許多人來說應該已經不是很陌生的的詞兒了。今天我們可以在軟件商店買到
形形色色的PC機譯軟件,各種語言對的,如英文到中文的,中文到英文的,或者日文到中文的,甚
至也有英文到日文的等等,還有什麼家庭版的,專業版的,配帶各種不同專業詞典可供選擇的等
等。據估計,世界上目前市場上有1000多種不同的機器翻譯軟件在銷售,我國具有一定規模的PC機
器翻譯軟件也有近20種。在世界范圍內PC機譯軟件的價格都不貴,而且價格還在不斷地下降。現在
我們甚至可以在網上免費享用翻譯系統的服務。因此現在用戶已有較大的選擇余地。當然一個用戶
在選擇機譯系統時,應該首先很好地弄清自己的需求。具體來說,我們有如下的建議。

  第一,如果你的翻譯任務是較穩定的或長期的,專業單一的,翻譯結果要達到出版水平的,你
可能是一個翻譯公司、或一個專業情報所,那麼你可以選擇配有大規模相應領域的專業詞典的,並
且又經得起大批量、長時間翻譯運行的(有的系統會死機的)系統。同時更理想的是你還可以再配備
一個"翻譯記憶"系統,它可以幫助你處理文本格式問題(如字體、圖表、腳注等),而且可以把你經
過修改的正確譯文保存起來供以後翻譯時再利用。

  第二,如果你的翻譯任務是臨時性的,專業不單一,翻譯質量要求無須達到出版水平的,那麼
你可以選擇配有多個領域的專業詞典的,但還是應經得起大批量、長時間翻譯運行的系統。

  第三,如果你是為了瀏覽網上信息要用到翻譯,那麼你一定要選擇可以在網上運行的系統。如
果你的外語水平還可以但詞匯量有限,那麼還可以選擇一種隻有大規模詞典但可隨點隨譯的系統。

  今天機器翻譯比起10年前,可以說相當繁榮。但是我們願意提醒,在這繁榮的後面,卻存在著
危機。前面說到那個ALPAC報告曾給機器翻譯帶來的創傷如今似乎已被撫平了。但實際上它的陰影始
終會時不時地再出現在機譯研究者的頭上。如今隨著有越來越多的機譯系統走向市場,政府的投資
者感到在這種情況下如果還要投資攻關似乎有點名不正言不順了。而商家則隻是想現在該是把現成
的技術包裝包裝就可以賺錢的時候了。經常會聽到老板們會這樣問研究者,"你估計開發出產品要多
長時間?你的系統正確率如何?",大概沒有一個研究者會回答說,將來"正確率大約在百分之五十
左右"的。如果果真那樣回答,那麼他的項目還不當場就被"槍斃"了。可是現有的機譯系統(不僅是
英漢或漢英,國外的其他語言對的系統)在面對真實文本時,其正確率實際上有多少呢?機譯的譯文
質量確實還遠不能令人滿意。近來國外有些人挖苦地說"MT,不是machine translation的縮寫,而
是mad translation (瘋子的翻譯)的縮寫。他們是近乎要跟機譯來番決戰似的。他們勸說人們不要
購買機譯系統,要翻譯的話應該雇翻譯人員。國內也有人諷刺地說,有了機器翻譯,"滿篇英文難不
住,滿篇中文看不懂"。這些固然是比較極端的評價,但機譯譯文質量確實一直是個老大難問題。著
名的機譯評論家Hutchins在最近的機器翻譯峰會上的發言中說,機譯譯文質量至今並沒有取得實質
性的進展,很多50年前未解決的問題如今依然存在。還有一種更加深層的危機,那是來自研究人員
自身的。他們說"在現有的技術條件下,機譯譯文質量也隻能這樣了。"說這話時似乎他們不是"現有
的技術條件"的創造者。這樣一來,可能出現的情況將是投資者和研制者都在以較低水平的系統忙於
行銷賺錢,而不再有足夠的經費和技術投入。機器翻譯無論在理論上或是技術上都還未成熟。現在
隻是由於人們對於克服語言交流的障礙有著很強烈的需求,尤其是因特網的出現這種需求更顯突
出,機器翻譯才獲得了以較低的譯文質量滿足這種需求的機會,並利用這一機會來求得進一步的發
展。我們對這一現實要有清醒的認識。在行銷上,應切忌不切實際的宣傳。現在在報紙雜志上常能
見到關於機器翻譯系統的過度夸張的宣傳。從長遠看,這是"自砸牌子"的不智作為。正確的做法是
把產品拿到用戶那裡去,老老實實地告訴他們機譯系統能做什麼和不能做什麼,如何來利用它,利
用它之所長,避它之所短。同時根據用戶的需求來調試和改進系統。換句話說,多做培養用戶,培
養系統,培養市場的工作。近20年左右,機器翻譯研究的方法真可謂花樣翻新,令人目不暇接,有
基於規則的、基於知識的、基於語料庫的、基於統計和語料庫的、基於例子的、基於對話的等等,
從另一種角度,還有直接法、轉換法、中間語言法等等。但其中哪一種也未能在翻譯質量上取得實
質性的突破。如何才能取得實質性的改進呢?我們不妨先對現有的機譯和人譯做一番比較。

  機譯:

  1.一句一句處理,處理第一句時不知道第二句的內容是什麼,處理第二句時,也不再去參考第
一句的內容了;

  2.對源語言的分析隻是求解句法關系,完全不是意義上的理解;

  3.它的開發者要求它幾乎是萬能的,它似乎什麼領域都能應付,從計算機到醫學,從化工到法
律,似乎隻要換一部專業詞典就可以了;

  4.它的譯文轉換是基於源語言的句法結構的,受源語言的句法結構的束縛;

  5.它的翻譯隻是句法結構的和詞匯的機械對應。

  人譯:

  1.一般會先通讀全文,他會前後照應;

  2.對源語言是求得意義上的理解;

  3.隻有專業翻譯人員,沒有一個是可以包打天下的萬能翻譯人員的;

  4.他的譯文是基於他對源語言的理解,不受源語言的句法結構的束縛;

  5.他的翻譯是一個再創造的過程。

  機器翻譯研究歸根結底是一個知識處理問題。它涉及到有關語言內的知識、語言間的知識、以
及語言外的世界知識,其中包括常識和相關領域的專門知識。我認為從實用的角度看,全自動高質
量的機器翻譯不應該是個目標,至少不應該是近期的目標,但是從研究的角度說,全自動高質量卻
應該是個目標。因為這樣我們不僅能夠建立機譯系統,而且能夠探索人譯的機制。近年來我在許多
場合都強調機器翻譯應該到了有所突破、有所創新的時候了。下個世紀的機器翻譯研究應在如下三
個方面有所突破:

  第一,大語境,而不再是一個句子一個句子孤立地處理;

  第二,基於理解,而不再是停留在句法分析的層次上;

  第三,高度專業化、專門化,而不再是個"萬事通,樣樣鬆"了。

  在九月的峰會上幾位機譯權威教授都一致提出要進行深層次的基礎研究,使對於源語言的分析
基於理解。呼吁投資者加大對於基礎研究,如大規模知識詞典建設的投入。筆者經過十多年的努力
建立的大型知識系統《知網》,今年已上網供研究免費使用。它引起了海內外學者的廣泛注意,並
已有人在它基礎上開始進行新的探索,如上面介紹的基於理解的分析以及新的排除歧義的方法。請
讀者瀏覽www.how-net.com 網頁。

  隨著因特網的普及,隨著信息時代的到來,機器翻譯的應用前景是廣闊的。作為人類探索自己
智能和操作知識的機制的窗口,機器翻譯研究將更加誘人。願50年來尚未解決的問題會在新世紀裡
得到解決。

  本文作者為中國中文信息學會常務理事。

 

-- 
| This message was re-posted from debian-simplified-chinese@lists.debian.org
| and converted from gb2312 to big5 by an automatic gateway.



Reply to: