[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

[FWD] 專業翻譯領域的首選技術--翻譯記憶



[posted and mailed]
At: http://tech.sina.com.cn/soft/2000-07-06/479.html
 
專業翻譯領域的首選技術--翻譯記憶

文/施韻濤 (2000/07/06 )   

  國內專業翻譯們在用什麼工具

  縱觀當前國內翻譯軟件市場,今天一"星",明日一"霸",群雄並起,競爭激烈。仔細分析這些
產品之後,我們可以將其分為兩大類:電子辭典和機器翻譯。

  電子辭典的優點自不待言,對詞的翻譯準確而且快速,但在專業翻譯領域,電子辭典所能做的
畢竟十分有限。

  這兩年對中國機器翻譯界來說,是高速發展的兩年。仿佛就在一夜間,各廠家便推出了各自的
機器翻譯軟件產品。據稱譯文的可讀性最高達到70%以上(注意,是可讀性,而不是準確性!)。豐富
多彩的軟件廣告,令人神往的應用前景,形成了國內軟件市場一道獨特的風景。然而相對於這邊的
熱鬧場面,在最需要翻譯軟件的專業翻譯領域,卻是波瀾不起,一切依舊。進入國內任何一家翻譯
公司或是大公司的本地化/翻譯部門,所有翻譯工作仍然停留在手工作坊階段,要說現代化,最多也
就是在電腦裡安一本電子辭典,再就是利用電腦做文字錄入工作。是翻譯領域不需要翻譯軟件嗎?
恰恰相反,專業翻譯人員最能體會到日復一日伏案翻譯的艱辛,對翻譯工具的需求也最為迫切。問
題在於即使是70%的可讀性,對於視質量為生命的專業翻譯來說,還是難以滿足要求。此外目前機器
翻譯軟件對電子文檔的格式處理能力有限,這又將近年來迅速崛起的專業翻譯領域的重要分支--本
地化行業的需求擋在門外。

  現在讓我們來回答標題所提出的問題,答案很簡單:國內專業翻譯領域沒用任何工具!

  國外專業翻譯領域在用什麼

  在一年一度的全球LISA大會(Localization Industry Standard Association,本地化工業標
準協會)上,MT和TM是永恆的話題。MT就是機器翻譯(Machine Translation)的縮寫,那TM又是什麼
呢?它是Translation Memory,中文譯作"翻譯記憶"。

  國內讀者可能還不太了解,其實目前TM技術幾乎獨霸國外專業翻譯和本地化市場。企業一旦決
定在工作流程中採用翻譯軟件,首先考慮的就是TM,要決定的也就是選用哪種TM產品。事實上,不
僅IBM、微軟、ORACLE、SAP等IT公司和Bowne Global(寶捷環球)、LionBridge、Berlize等本地化
公司和翻譯公司在大量使用TM產品,歐盟、國際貨幣基金組織、沃爾沃、大眾汽車等國際組織和企
業也都是TM的忠實用戶。

  反觀每年LISA大會上,翻譯記憶(TM)廠家的展位一字排開,氣勢非凡,而人們卻很難在會場找
到機器翻譯產品的蹤影。有關翻譯軟件的討論,也大都集中在翻譯記憶領域。國內有些廣告做得風
風火火的翻譯軟件公司,甚至不知道有LISA這個組織,個中原因,實在耐人尋味。

  什麼是翻譯記憶

  1.原理

  翻譯記憶(TM)的原理其實非常簡單。由於專業翻譯領域所涉及的翻譯資料數量巨大,而范圍相
對狹窄,集中於某個或某幾個專業,如政治、經濟、軍事、航天、計算機、通訊等專業都有自己的
專業翻譯公司或部門。這就必然帶來翻譯資料的不同程度的重復。據統計,在不同行業和部門,這
種資料的重復率達到20%~70%不等。這就意味著譯者至少有20%以上的工作是無謂的重復勞動。翻譯
記憶技術就是從這裡著手,首先致力於消除譯者的重復勞動,從而提高工作效率。

  翻譯記憶(TM)技術原理是這樣的:用戶利用已有的原文和譯文,建立起一個或多個翻譯記憶庫
(Translation Memory),在翻譯過程中,系統將自動搜索翻譯記憶庫中相同或相似的翻譯資源(如
句子、段落),給出參考譯文,使用戶避免無謂的重復勞動,隻需專注於新內容的翻譯。翻譯記憶庫
同時在後台不斷學習和自動儲存新的譯文,變得越來越"聰明",效率越來越高。幾乎所有翻譯記憶
廠家都會告訴用戶:有了TM,你永遠不必對同一句話翻譯兩遍!

  機器翻譯界一位著名專家曾經說過,機器翻譯做了人願意做的工作,卻沒有做好;翻譯記憶則
做了人不願做的工作!可不是嗎,有誰願意把時間花在重復勞動上,又有誰樂意讓一台技術不成熟
機器來代替自己的工作呢?翻譯記憶技術,實際起了輔助翻譯的作用,也就是"計算機輔助翻譯",
簡稱CAT(Computer Aided Translation)。

  2.功能與實例

  1) 翻譯過程

  我們來看一個典型的翻譯記憶軟件工作的例子。啟動TM系統來翻譯句子"This is a file for 
demo."。由於這是TM第一啟動,當然沒有任何"記憶",需要用戶輸入譯文:"這是個演示用的文
件"。TM在翻譯下一句的同時,也把這一原文和譯文做為一個翻譯單元儲存了起來。當我們再來翻譯
另一個句子"This is a demo file."時,TM會搜索翻譯記憶庫,對該句和記憶庫中翻譯單元進行對
比和匹配,挑出原文最接近的翻譯單元,給出參考譯文。在這裡,該參考譯文就是"這是個演示用的
文件。"用戶當然可以接受該譯文,也可以做一些修改,修改後的新譯文會自動存入記憶庫,供以後
使用。翻譯記憶庫就這樣儲存每一句新的譯文,隨時為用戶提供參考。由於專業領域詞匯和句式相
對固定,當用戶積累了多個有一定規模的記憶庫後,遇到的重復句子會越來越多,翻譯工作也變得
越來越輕鬆。

  TM產品還都支持網絡共享記憶庫功能。也就是說,當多人同時進行翻譯時,可以通過局域網共
享一個翻譯記憶庫。比如,譯員A剛剛翻譯了"This is a file for demo.",當譯員B遇到"This 
is a demo file."時,系統會給出A的譯文"這是個演示用的文件。"。B可以接受,也可以修改,修
改後的譯文又可供自己或他人重復使用。翻譯記憶庫就在這樣的不斷補充和完善過程中,發揮著越
來越大的作用。

  2) 自動建庫

  對於在使用TM產品前,已經積累了大量翻譯資料的用戶,TM產品會提供一個自動建庫工具。該
工具能自動分析和匹配原文和譯文,以句子為單位將原文和譯文一一對應。用戶做完一些調整和校
對之後,該工具會自動生成一個標準的翻譯記憶庫文件。用戶所有的資料都可以通過該工具得到回
收,從而高效、快捷地建立起翻譯記憶庫。這些庫在不斷的使用過程中,又會得到進一步補充和完
善。

  3)術語管理

  TM產品一般還提供一個非常重要的功能:術語管理。對於專業技術領域來說,幾乎每篇文檔都
帶有大量的專業術語,術語譯文的前後一致,始終是校對的重要內容之一。這項工作費時費力,難
保還會有疏漏。TM產品通過一個術語管理工具(一般是個電子辭典),來規范所有的術語。用戶隻需
一次性建立一個或多個標準術語列表(表中包括術語原文和譯文),在使用TM系統翻譯時,打開術語
管理工具中相應的術語列表,TM會自動識別出當前句子中有哪些詞是已定義的術語,並給出標準的
術語譯文。這樣就不會在一篇文章或一本書中,不同的人把"Mouse"分別譯為"鼠標"、"滑鼠",甚
至"老鼠"了,也省掉了校對的麻煩。不同的TM產品對術語管理的實現方式雖有不同,但殊途同歸,
最終都是為了保証術語的統一。

  4) 多語種間雙向互譯

  由於翻譯記憶實現的是原文和譯文的比較和匹配,這還帶來了TM的一個先天優勢--支持多語種
之間的雙向互譯。以全球最著名的翻譯記憶軟件廠商,德國塔多思(TRADOS)公司為例,該公司的產
品基於UNICODE,支持55種語言,覆蓋了幾乎所有語言版本的Windows 95/98/NT。換句話說,一套
產品就可以實現各語種間的雙向互譯,這在機器翻譯是難以想像的。

  5) 自動排版

  人不願做的事情又豈止是重復勞動。電子文檔的排版工作也是讓翻譯人員頭疼的工作。尤其本
地化行業,對譯文的格式要求極為嚴格,必須和原文檔的格式保持一致。在這方面,翻譯記憶產品
又遠遠地走在了前頭。目前的翻譯記憶產品一般都提供各種格式處理工具,支持流行文檔格式,如
DOC、RTF、HTML、SGML、PPT等等。譯文會自動套用原文的格式,翻譯人員不必費心排版,隻要全
神貫注從事翻譯就可以了。

  統計數據表明,通過在翻譯流程中應用TM技術,工作效率能提高30%~60%,效益十分可觀。

  6)項目管理

  翻譯軟件市場,誰主沉浮

  答案似乎不言自明,難道不是翻譯記憶嗎?其實翻譯記憶的技術特點決定了它的用戶群主要是
專業和行業用戶。對外語水平較差的個人用戶來說,機器翻譯的譯文盡管還"不太明白",但總比"一
點都不明白"要好得多了。而翻譯記憶產品昂貴的價格,日復一日的翻譯記憶庫建立工作,都是非專
業用戶所無法承受的。所以在現階段,TM和MT各有所需,各得其所,倒也相安無事。

  目前在全球翻譯記憶(TM)市場上,有德國塔多思(TRADOS)處於絕對領先地位,其核心產品
Translator's Workbench(翻譯工作平台)直接和微軟Word集成,界面友好,此外還有強大的網絡共
享、術語管理、翻譯項目管理,以及格式轉換處理功能,為專業翻譯領域提供了一整套解決方案。

  隨著TM這一技術在國內的推廣應用,人們必然面臨一個選擇的問題。其實隻要做到了以下幾
點,就可以說是真正的TM產品:第一,支持TMX(Translation Memory eXchange,翻譯記憶交換)
標準。因為隻有翻譯記憶庫文件的輸出格式符合TMX標準,才能實現不同TM產品間的數據交換。第
二,支持多語種之間的雙向互譯。第三,開放的翻譯記憶庫管理機制,允許用戶根據需要,對記憶
庫進行分類、檢索、合並、拆分及加密。第四,支持多種常用文檔格式(DOC、RTF、HTML、SGML、
PPT、FM、MIF等),避免用戶再排版。第五,提供術語管理功能,即通過統一的術語列表,在翻譯過
程中動態提示術語的譯文,規范術語的翻譯。如果您所面對的TM產品完全符合這些條件,那就值得
進一步評估。至於其它功能,當然多多益善,但以上幾條是必需的。

  對於專業翻譯領域來說,翻譯記憶(TM)是目前唯一的選擇。該領域特點決定了翻譯記憶技術有
著廣闊的應用前景!

  小資料:

  1.本地化行業:嚴格的說,本地化行業應該屬於IT業,因為它的業務范圍包括了軟件內核的本
地化和文檔的本地化等多個方面。即使是文檔的本地化,也因有嚴格的格式要求,對電腦排版的要
求極高。

  2.翻譯單元:TM的基本單元是句子。其實TM可以按照用戶定義的斷句標準,儲存詞組、句子,
乃至段落作為基本的翻譯單元。因為句子的重復性更高,更適合實際情況,所以TM產品都以句子為
單位。

  3.Unicode:統一字符編碼標準。基於Unicode技術的軟件產品能支持任何語言編碼。

  4.TMX:Translation Memory eXchange,翻譯記憶交換標準。實際上,TMX也是一種標記語
言,以文本文件的形式保存(和HTML類似),TM產品可以導入用TMX格式編寫的文件,建立翻譯記憶
庫。

 
 

-- 
| This message was re-posted from debian-simplified-chinese@lists.debian.org
| and converted from gb2312 to big5 by an automatic gateway.



Reply to: