翻譯整個文檔的軟件有哪些?當我們需要翻譯整個文檔時,使用翻譯軟件可以大大提高工作效率。以下是幾種翻譯整個文檔的軟件,可以為大家快速的解決問題。
謝您關注“永大英語”!
張文煜 趙 璧
摘要:以ChatGPT為代表的生成式人工智能技術一經問世,就引發了應用熱潮,同時也對廣大語言內容工作者的創作和服務模式構成了巨大沖擊。本研究將機器自動評價和人工評價相結合開展譯文質量評測實驗,對當前GPT技術在翻譯領域的應用表現進行了分析。結果表明,目前GPT技術在翻譯領域中尚不構成對神經網絡機器翻譯技術的更迭,但在漢英翻譯、術語翻譯、文學翻譯等領域已經表現出一定程度的質量提升。在此基礎上,本研究對翻譯教育如何應對人工智能技術帶來的變革給出了建議。
關鍵詞:ChatGPT;機器翻譯;翻譯教育;翻譯質量;對比研究
引言
2022年11月問世的ChatGPT(Chat Generative Pre-trained Transformer),僅兩個月就創造了APP用戶過億的新紀錄。作為一款生成式人工智能語言模型,其強大的對話能力和生成能力使之具備了廣泛應用于智能家居、醫療、金融、教育等眾多領域的發展潛力,同時也對語言內容工作者的創作和工作模式構成了巨大沖擊。基于此,本研究將重點關注該技術對翻譯實踐和翻譯教育領域產生的影響,主要研究以ChatGPT為代表的生成式人工智能技術是否對機器翻譯技術構成更迭,該類技術在哪些方面表現出明顯的差異性,以及翻譯教育者應當如何認識并應對這一新技術帶來的變革等問題。
一、文獻綜述
ChatGPT雖然問世時間不長,但已受到了商界、學界和普通用戶的廣泛關注,各領域學者也對其開展了不少研究。整體來看,國內相關研究主要集中在兩個方面:首先是ChatGPT技術在不同領域的應用研究,如政務服務與國家治理(高奇琦,2023;汪波、牛朝文,2023)、圖書情報(儲節旺等,2023;張慧等,2023;李榮等,2023)、新聞傳播(鄭滿寧,2023;方興東等,2023)、高等教育(崔宇紅等,2023;張峰、陳瑋,2023)等;其次是對ChatGPT技術倫理風險和監管需要的研究,如游俊哲(2023)、西桂權等(2023)、馮雨奐(2023)等分別對生成式人工智能技術在科研、安全、教育領域的倫理風險和防范機制進行了探討。國外則以ChatGPT技術在教育和科研領域中的應用和倫理研究為主,其中既有著眼于整個教育系統的研究(Rospigliosi,2023;Kasneci et al.,2023),也有對某一具體學科教育的檢視,如語言教育(Kohnke et al.,2023)、科學教育(Cooper,2023)、醫學教育(Arif et al.,2023),還有對倫理問題的思考(Cotton et al.,2023;Dwivedi et al.,2023)等。目前,國內外均尚未有針對ChatGPT技術在翻譯實踐和翻譯教育領域的具體評測和應用類成果見諸期刊。
關于機器翻譯質量評測的研究則相對成熟。機器翻譯質量評測的方法主要有自動化評價、人工評價和將兩者相結合的半自動評價3種(戴光榮、劉思圻,2023),其中自動化評價又可分為有參考集、無參考集和基于語言檢查點的診斷性評價3類,人工評價又可分為主觀評價和錯誤類型評價兩類(Chatzikoumi,2020)。每種評測方法都有其優點和缺陷,也都有各自適用的場景。研究者們運用這些評測方法,對多款機器翻譯產品在不同領域的產出質量進行了評價,如:郭望皓、胡富茂(2021)對谷歌、百度、騰訊、有道和搜狗5個翻譯系統在軍事領域英譯漢文本中的表現進行了BLEU(Bilingual Evaluation Understudy)值計算;Anazawa et al.(2013)調查了護士用戶對護理文獻英日機器翻譯譯文的整體有用性的評價情況;Wrede et al.(2022)采用錯誤類型評價方法對英語 - 斯洛伐克語的新聞機器翻譯質量進行了評測。整體而言,對多語對方向、多主題領域開展的自動和人工相結合的機器翻譯質量評價研究仍不多見。
二、研究設計
1. 研究思路
本研究旨在考察神經網絡機器翻譯(Neural Machine Translation,NMT)引擎和生成式人工智能語言模型(下文簡稱GPT)在英漢互譯任務場景中的翻譯質量差異,并在此基礎上反思翻譯教育應如何應對人工智能的最新發展變革。在研究對象上,選擇有道翻譯和DeepL翻譯作為國內外主流神經網絡機器翻譯引擎的代表,選擇前者主要是考慮到國產機器翻譯引擎在漢語語料方面可能相對更有優勢,選擇后者則是因為其自稱是“全世界最準確的翻譯”,此二者基本可以代表神經網絡機器翻譯在英漢語對方面的標準水平;選擇基于GPT-3.5架構的ChatGPT作為生成式人工智能語言模型代表,與神經網絡機器翻譯進行對比研究。在研究方法上,采用機器自動評價和人工評價相結合的測評方法,分別對神經網絡機器翻譯和生成式人工智能語言模型產出的譯文進行BLEU值計算①(① 由國際計算語言學協會(ACL)舉辦的國際機器翻譯大賽(WMT)每年均采用BLEU值作為自動評估指標,詳見http://www2.statmt.org/wmt23/translation-task.html#_announcements。),并依據擬定的錯誤類型評分表進行人工打分,通過綜合對比機器自動評價和人工評價的結果差異,衡量在翻譯質量方面生成式人工智能語言模型相較于神經網絡機器翻譯是否有顯著提升,以及具體應在哪些方面加以改進。
2. 語料選擇
為保證評價結果的可靠性,本研究在選擇語料時遵循以下原則:第一,選擇真實的、未經編輯的自然語料作為實驗對象,以考察神經網絡機器翻譯和生成式人工智能語言模型在翻譯自然語料時的表現;第二,挑選難度適中的文本作為實驗素材,以反映NMT和GPT的實際翻譯水平;第三,選擇涵蓋小說、散文、學術著作、法律文件、新聞報道和科普文章等6類不同體裁的文本,以保證實驗語料的多樣性和代表性;第四,選擇已有人工參考譯文的源語文本,使實驗語料滿足BLEU值測算的要求。在選擇參考譯文時,本研究充分考慮了參考譯文的質量要求,對于法律、科普和新聞類文本,選擇政府和企業平臺發布的官方譯文;而對于小說、散文和學術著作,則綜合考慮出版社、資助項目和譯者的學術及翻譯實踐背景,選擇具備參考價值的譯文;第五,所節選的實驗素材長度控制在320詞/字左右,以保證實驗的效率和人工評價的可行性。本研究所使用實驗語料的具體信息見下頁表1和表2。
3. 研究步驟
第一步,將12篇經過校對的節選源語實驗語料(Source Text,ST)以純文本格式逐一復制粘貼到網頁版在線有道翻譯和DeepL翻譯的文本框,獲得對應的NMT系統生成的目標語文本(Target Text,TT)。同時,再將12篇ST純文本逐一復制粘貼至ChatGPT聊天框,并在聊天框中輸入“英譯中”或者“中譯英”作為指令,獲得GPT生成的目標語文本。
第二步,通過調用Python自然語言工具包庫(Natural Language Toolkit,NLTK)中的corpus_bleu()函數,對全部36篇TT樣本進行BLEU值計算。
第三步,在參考計算機輔助翻譯工具Trados Studio 2022內置的翻譯自動化用戶協會翻譯質量評估默認模板的基礎上,結合呂東瑩(2020)、李奉棲(2022)等研究成果,擬制適用于本研究所涉及文類的翻譯錯誤類型評估類別及計分標準。
第四步,邀請3位某外國語大學英語專業碩士研究生和1位擁有豐富翻譯教學及實踐經驗的教師,依據擬制的翻譯錯誤類型及計分標準,對隨機選取的8篇TT樣本進行人工評價前測實驗,以檢驗人工評價標準的可理解性、可操作性、合理性和無歧義性。在收集前測實驗結果和前測評價人員反饋的基礎上,對人工評價標準中的一些指標和分類進行優化,對錯誤類型和嚴重程度描述中不夠準確和清晰的地方進行調整,同時增加舉例說明內容,以幫助研究人員更好地理解和應用該人工評價框架。最終確定的人工評價標準如下頁表3所示。
第五步,邀請6位評測人員參與正式的人工評價。這6位評測人員中有3位為教學經驗豐富的高校翻譯專業教師,其余3位為翻譯實踐經驗豐富的語言服務行業職業審校員,且這6人與前測評價人員均無重合。參與正式評價的6位評測人員均擁有英語或翻譯專業碩士及以上學位,且均擁有豐富的中英文審讀經驗,能夠客觀公正地評估譯文質量。為盡可能地保證評測結果的可信度和客觀性,在評測過程中未向評測人員透露任何關于評測語料來源的信息,所有評測人員都以匿名方式進行評測,互不知曉其他評測人員的評價結果。
第六步,將36篇待評測的TT文本平均分發給6位評測人員,每位評測人員負責對2篇不同領域的ST文本(中文、英文ST文本各1篇)所對應的共6篇TT文本進行人工評價。人工評價采用錯誤標記法,同時標記錯誤類型和錯誤分值。錯誤類型包含準確性、語言、風格、術語和文化5個大類,其中每個大類又包含1至5個小類,但對小類的區分僅用于幫助評測人員判定錯誤類別,不需要詳細標記。錯誤分值則根據錯誤的嚴重程度進行計算,大錯每個計5分,小錯每個計1分,重復錯誤需重復計分。比如在“大約有1%的人患有一種叫作幻視的極端疾病”這個句子中,評測人員認為“幻視”一詞屬于術語類別的嚴重錯誤,則需要將“幻視”一詞用黃色高亮標注,并在詞后用紅色字體標注“(T-5)”,其中T代表術語(Terminology)錯誤,“-5”表示嚴重級別為大錯,計5分。
第七步,評測人員完成TT文本的人工評價后,將評價結果返回給實驗設計人員,由實驗設計人員對評價結果進行匯總和數據分析。
三、數據分析與討論
1. 機器自動評價結果
與人工評價相比,對譯文質量進行機器自動評價具有速度快、成本低、不依賴人的主觀判斷等優點。本實驗采用國際通用的BLEU算法來對譯文質量進行機器自動評測。BLEU文本評估算法由美國IBM公司于2001年提出,其核心思想是利用N-gram匹配和懲罰因子對機器翻譯譯文和高質量人工參考譯文進行相似度及距離計算,二者越相似,說明機譯譯文的質量越高,這時BLEU值也越高且越接近于1;反之,BLEU值則越低且越接近于0(Papineni et al.,2001;郭望皓、胡富茂,2021)。
本實驗數據的描述性統計結果顯示,有道翻譯、DeepL翻譯、ChatGPT這3款工具的漢譯英譯文BLEU均值分別為0.752、0.751、0.715(見表4),英譯漢譯文的BLEU均值分別為0.412、0.358、0.306(見表5)。
分別對比表4、表5中的BLEU值結果可以看出,在本實驗選取的語料范圍內,GPT英譯漢和漢譯英譯文的BLEU平均值均低于NMT,說明GPT譯文和人工參考譯文的相似度最低,譯文質量不盡理想。由此可見,GPT作為一款大型語言模型,雖然在應用場景的廣泛性方面具有絕對優勢,但在翻譯這一細分領域的表現并未能明顯領先于NMT。在這3款語言智能工具中,有道翻譯的BLEU值最高,一定程度上顯示了國產機器翻譯引擎的語料優勢確實對翻譯質量有促進作用。
曾有研究者通過實驗證明NMT的漢英翻譯質量優于英漢翻譯質量(秦穎,2018)。從本次實驗的數據結果來看,兩款NMT工具的漢英翻譯BLEU均值也明顯高于英漢翻譯的BLEU值,且GPT也表現出了類似趨勢,這說明NMT和GPT雖然模型架構不同,但整體上都更擅長處理漢英翻譯任務。
2.人工評價結果
BLEU值能夠在一定程度上反映譯文質量的優劣,但由于該評測方法在同義詞與復述、權重分配、召回率方面均存在一定的缺陷(李良友等,2014),故僅依據BLEU值無法對譯文質量做出全面評判,還需結合人工評價結果進行綜合分析。
(1)整體翻譯質量對比
對6位評測人員基于錯誤類型和錯誤分值的評價結果進行統計(數據見表6),結果表明,3款語言智能工具在漢英翻譯中出現的錯誤數量和錯誤分值整體上都明顯少于英漢翻譯,這與BLEU值結果的趨勢一致。但與BLEU值評測結果不同的是,人工評價結果顯示,GPT對英漢語對的翻譯整體質量優于NMT,具體表現為:在英譯漢的語對方向上,GPT的錯誤數量和錯誤分值均略少于NMT,但差異的顯著性不強;而在漢譯英的語對方向上,GPT的錯誤數量和錯誤分值明顯少于NMT。從錯誤嚴重程度來看,兩款NMT工具英譯漢錯誤的平均分值為2.29,而GPT的平均分值為2.13,即GPT的表現略微占優,但優勢不明顯;不過,GPT漢譯英錯誤的平均分值為1.71,而兩款NMT工具的平均分值為2.32,差異比較顯著,表明和NMT相比,GPT在漢英翻譯時所犯的錯誤更微小,更不影響對語義的理解,故而譯文質量更高。
(2)不同體裁文本翻譯質量對比
人工評價結果顯示,GPT的整體翻譯質量優于NMT,這一優勢在漢譯英語對方向上尤為明顯。研究者接著對GPT和NMT在不同體裁類型中的翻譯表現進行了對比分析,結果如表7、8、9、10所示。
表7顯示了3款翻譯工具將不同體裁文本從英語譯入漢語時的錯誤類型和錯誤分值的統計結果,可以看出,在科普文章這一類別中,GPT的錯誤分值明顯低于兩種NMT工具,僅為后者的一半左右。
對3款翻譯工具在翻譯英語科普文章時所犯錯誤的類型和分值進行詳細分析(結果見表8),發現GPT的翻譯質量優勢主要體現在科學術語方面。在術語類別中,NMT翻譯的平均錯誤分值為3.92,而GPT為1,約為前者的1/4。例如,本實驗選取的“Mind’s Eye”節選文本中包含有術語“aphantasia”,意為“幻像可視缺失癥”,有道翻譯和DeepL翻譯分別將其錯譯為“幻視”和“象皮癥”,這兩個譯文均會給讀者造成比較嚴重的理解障礙,故都被評測人員判定為大錯;而GPT將其譯為“失去想象力癥”,雖然表述得仍不夠準確,但至少不會導致理解障礙,因此被評測人員判定為小錯。從統計數據看,GPT在術語類別上犯的所有翻譯錯誤均為小錯,因此在人工評價體系中更受青睞。
下頁表9顯示了3款翻譯工具將不同體裁文本由漢語譯入英語的錯誤統計結果,可以看出在文學類文本中,GPT的錯誤分值明顯低于NMT。
對散文和小說文本翻譯結果的進一步統計分析表明,GPT的英語譯文在準確性方面有明顯優勢(見表10),比如GPT在散文節選語料的英語譯文中共只犯了兩個錯誤,且都為小錯。
從文學類文本的翻譯案例看,GPT在理解上下文語境方面比NMT有明顯優勢,故產出的英語譯文可讀性更強,語義也更清晰。如散文《匆匆》節選部分中的句子:
ST:去的盡管去了,來的盡管來著,去來的中間,又怎樣地匆匆呢?
TT(有道翻譯):Those who have gone have gone,and those who have come have come,but how quickly have they come?
TT(DeepL翻譯):Although the go,despite the come,despite the come,go to the middle of the come,and how to rush it?
TT(ChatGPT):Despite their departure and arrival,how fleeting the moments in between are!
DeepL翻譯的譯文“although the go,despite the come,despite the come”,不但令讀者難以理解,還有明顯的內容重復。有道翻譯的譯文可讀性更強一些,但“how quickly have they come?”的語義和原文還是有一些出入。GPT的譯文則更顯靈活,對上下文的理解也更為準確。
四、研究發現
1. GPT與NMT表現的相似性
從本次實驗結果看,GPT在漢英語對翻譯上的表現與NMT有諸多相似之處。首先,在測評的兩個語對方向的6種體裁文類中,GPT在大部分組合中的翻譯質量和NMT非常接近,GPT與NMT之間的差異顯著小于兩款NMT系統之間的內部差異。這可能是因為GPT技術雖然在模型架構上有所突破,但依舊保留了編碼器 - 解碼器的基本模型原理和注意力機制,因此并未構成對NMT技術的徹底顛覆,使得GPT和NMT表現出相似性大于差異性的特征。其次,機器自動評價和人工評價結果都顯示,GPT和NMT整體上都更擅長漢譯英。這一表現趨勢可能由多種因素所致,比如用于訓練的漢譯英語料數據整體質量更高,或者評價結果受到評測人員本身母語為漢語的影響等。
2. GPT與NMT表現的差異性
根據本次實驗中的機器自動評價結果,GPT在漢英語對上的整體翻譯表現不及NMT,但人工評價的結果則顯示GPT的整體翻譯表現略優于NMT。兩種評價結果的差異主要緣于BLEU值算法沒有將同義和權重關系考慮在內,因此機器測評結果并不能真正反映人類讀者的直觀感受,因而在測評語言智能技術的翻譯質量時必須將機器自動評價和人工評價相結合,以全面地衡量其在翻譯領域的真實表現。
進一步分析人工評測結果可以發現,GPT在英譯漢方向上的優勢不明顯,而在漢譯英方向上的優勢非常顯著,其中漢譯英表現占優的主要原因是GPT的平均錯誤分值更低,即所犯錯誤的嚴重程度更低,因此對整體譯文質量的影響較小。具體到體裁文類方面,GPT在科普文章體裁中的表現最佳,其術語翻譯的準確性明顯優于NMT;在文學類文本的漢英翻譯方面,GPT具有顯著優勢,其錯誤數量和分值都明顯低于NMT,尤其是在英語表達和漢語語境的理解方面都表現出更高的準確性。據此可以推測,相比于NMT技術,GPT的大型語言模型能將上下文中更多的語義特征轉換成向量帶入計算之中,從而實現譯文質量的提升,本實驗中對漢語散文和小說節選部分的翻譯案例都明顯符合這一推測。
五、對翻譯教育的啟示
本次評價實驗雖然樣本數量和規模有限,但實驗結果揭示了GPT技術應用于翻譯領域的一些特征,可以為高等教育階段的翻譯教學提供一些啟示。
首先,GPT技術的問世雖然給整個知識服務和內容創作行業帶來了巨大的挑戰,但對翻譯領域還未構成顛覆性的沖擊。目前來看,GPT技術所產出的翻譯成果還不能達到直接發布的水平,仍然需要人工的編輯和介入,因此并未從根本上改變人機合作的翻譯工作模式。已經融入機器翻譯等技術內容的翻譯教育仍可繼續沿用原有的培養方案、課程大綱等宏觀設計,尚不需要做出重大調整。
其次,GPT的大型語言模型應用于翻譯領域之后,進一步提升了自動產出譯文的質量,尤其是在傳統上認為機器翻譯并不擅長的文學等領域中,其翻譯質量的改善更為明顯。可以預見,隨著GPT-4甚至更高版本的語言模型問世并投入應用,人工智能在各種翻譯場景中能夠發揮的作用還將進一步擴大。因此,翻譯教育必須保持對新技術的開放性和認可度,動態構建教育內容,積極探索“‘師 — 機 — 生’三元互動協同的教學模式”(周忠良,2023),不斷更新既有認知、調整知識結構,以保證翻譯教育的實效性。
最后,隨著人工智能技術革新速度的不斷加快,基于直觀體驗的知識學習模式為學生獲得相對于教師的技術優勢地位提供了更多機會。因此,翻譯教師一方面要積極提升自身的知識更新能力,另一方面也要主動和學生協同構建新知識、新技能的學習共同體,培養學生的科學探索精神和知識分享意愿,使翻譯教育始終保持與時俱進的進步性。
結語
2018年前后,神經網絡機器翻譯技術的廣泛應用曾經引發過一輪機器翻譯是否會取代人工翻譯的大討論;當下,GPT技術的飛速發展則在更大范圍內引發了包括譯員在內的語言內容創作者對人工智能的憂慮。本次評價實驗的結果顯示,GPT技術在翻譯領域中尚未表現出對NMT技術的更迭,但在漢英翻譯、術語翻譯、文學翻譯等不同領域表現出一定程度的質量提升。從翻譯教育的角度來看,雖然目前尚不需要針對生成式人工智能技術進行重大的教學調整,但翻譯教育工作者必須充分意識到人工智能對翻譯工作性質和業務模式的重塑能力,理解技術變革的不可逆性,密切關注技術的新發展、新應用,及時在教學內容、教學模式、教學手段上與其對接,保證翻譯教育能夠滿足國家發展戰略和語言服務產業的實踐需求。
本研究也存在一定的局限性:首先,評估人員的語言背景比較單一,未來可增加母語為英語的翻譯評估人員參與譯文評測,以提高譯文人工評估的準確性;其次,譯文的機器自動評價指標比較單一,未來可以使用更大規模的樣本并引入更多的機器測評參數,以更深入全面地探究生成式人工智能技術在翻譯領域的表現。
(參考文獻 略)
(本文首次發表在《北京第二外國語學院學報》2024年第1期)
料庫創建流程
● 語料采集
● 語料清洗、降噪
● 語料對齊
● 語料深加工
● 格式轉換
01
語料庫采集原則
1.學術價值或影響力原則:質量把控
2.時間原則:25年為一個周期,時間跨度不能太長
3.語料可及原則:獲取足夠規模
4.質量原則
5.分類原則:各個行業的分類
6.規模原則
【注】必須是真實的語言材料,采集方式:整本收錄、抽樣(隨機抽樣、分層抽樣、聚類抽樣)
語料庫采集方法
1.資源獲取
2.OCR識別
3.數據抓取技術
4.格式轉換
語料庫檢索資源
COCA語料庫-作為查詞典的補充
BNC-英式英語
SKETCH ENGINE-多語種語料庫
聯合國文件數據庫-正式文件
北京BCC漢語語料庫-漢語語料
語料庫在線-漢語語料
LIVAC漢語共時語料庫
Tmxmall語料快捷
Glosbe多語種在線詞典
Lingue-網絡例句、官方網站(建議查詢詞組)
中國漢英平行語料大世界
句酷
BiCovid-疫情相關語料庫
TAUS Data-多語種語料
MyMemory
光學識別軟件
ABBYY 點擊推文光學識別軟件
ILovePDF-在線
CleverPDF-在線
QQ識別
TextForever
語料抓取
打開Teleport Ultra,點擊文件-新建項目向導
復制需要抓取的網址https://www.kanunu8.com/book4/10369/index.html
選擇需要抓取的內容
網址的原文本:
抓取后的文本:
02
語料清洗
噪音文本:
1.抓取的信息缺失、冗余
2.邏輯對應錯誤
3.格式、內容錯誤
常用清洗工具
TextForever
Notepad++/EditPlus
PowerGREP (借助正則表達式)
Microsoft Word
文本整理器
正則表達式
正則表達式30分鐘入門教程:
https://deerchao.cn/tutorials/regex/regex.htm
利用word清洗
文章段落有下箭頭,說明沒有完全分行:
點擊編輯-查找和替換-替換
在特殊格式里選擇要替換的符號
軟回車(手動換行符)替換為硬回車(段落標記),即^L替換為^P
點擊全部替換,得到下圖
刪除如下圖所示的多余空行:將^P^P替換為^P
利用文本整理器清洗
1.用于去掉空格、把全角符號替換成半角符號
2.導入的文本必須使用txt文檔
03
語料深加工(學術應用)
1.語料分詞
2.詞形還原-變形、變體、變位、派生詞等
3.語料標注-詞法標注、語用標注、句法標注
4.元信息標記
04
語料對齊標準
1.英語原文與中文譯文的句子對齊以一一對應為主,但也允許一對多、多對一等特殊情況存在。
2.一般以句號、問號、感嘆號作為分句標記
3.保證各語言分句結果在句法邏輯上是完整的。
語料對齊工具
1.Paraconc-view corpus alignment:有對齊功能,但不可導出
2.CAT軟件自帶工具、組件:
SDL Trados:需要人工連線,比較麻煩
memoQ-LiveDocs
Dejavu Alignment
雪人翻譯軟件-對齊組件
3.獨立工具:
Tmxmall在線對齊
ABBYY Aligner
Tmxmall在線對齊
導入雙文檔后,調整每一段進行一一對應
通過上移或下移使文本一一對應
合并分句:點擊一個分句后按住ctrl,再選中另一個需要合并的分句
單個自然段的序號顏色相同,檢查是否一一對應
在簡單調整雙語文本后,選擇對齊
對齊后進行語料去重:點擊高級功能-原文=譯文
單擊分句后,可選擇刪除
提取術語表:點擊提取術語
可導出所需的格式
05
格式轉換
不同軟件對文件格式支持不同,因此需要文件格式轉換:
1.翻譯記憶庫一般切換形式為*.tmx
2.SDL Trados 記憶庫格式為*.sdltm
3.memoQ 的記憶庫格式為*.mtm
4.Dejavu 的記憶庫格式為*.dvmdb
5.用于學術研究的語料庫一般為*.txt,但不同工具對文件編碼要求不同:
Wordsmith 支持編碼為Unicode
antconc 支持編碼為UTF-8
paraconc 對中文支持ANSI編碼,英文為UTF-8編碼
格式轉換工具
1.Heartsome TMX Editor:點擊工具-將tmx文件轉換成指定格式
2.CAT工具-轉換格式
3.文件另存為-編碼-保存
4.Notepad++:點擊編碼進行轉換
記憶庫管理工具
Heartsome TMX Editor
COCA在線語料檢索
比如,直接輸入詞組break out,查看用法
輸入*break out 查看哪些詞后面可以跟break out
輸入*_NNbreak out 查看哪些名詞后面可以跟break out
管理語料
1.按照時間、領域、客戶進行劃分
2.參考利用已有語料庫,避免重復勞動
3.團隊共享已有語料庫,把握翻譯文本風格
4.常規語料分類
公眾號 | 綠山墻外(雅思、翻譯、翻譯技術)
*請認真填寫需求信息,我們會在24小時內與您取得聯系。