成人国产在线免播放器最近|久久免费视频2000|日韩精品亚洲精品中文字幕乱伦AV|五月丁香乱伦图一本AV不卡1区

手機號
驗證碼
立即登錄    忘記密碼? 注冊
手機號
郵箱
立即登錄    免費注冊 找回密碼

5/31/2018 3:25:00 PM

駐馬店翻譯公司:機器翻譯的原理

樂文駐馬店翻譯公司機器翻譯(Machine Translation,MT)是建立在多學(xué)科基礎(chǔ)上的綜合學(xué)科,現(xiàn)代理論語言學(xué)的發(fā)展,計算機科學(xué)的進步,信息學(xué)和概率統(tǒng)計學(xué)的應(yīng)用,對機器翻譯的發(fā)展和演變產(chǎn)生了重要影響。機器翻譯的基本思想是利用計算機對自然語言進行翻譯,而各種機器翻譯系統(tǒng)采用的技術(shù)和理念不盡相同;面對各種各樣的機器翻譯系統(tǒng),文獻上有各種分類方式。本文根據(jù)所應(yīng)用的基本工作原理對機器翻譯系統(tǒng)分類作一綜述。
  1.基本類型的機器翻譯系統(tǒng):現(xiàn)有的機器翻譯系統(tǒng)按照其基本工作原理,可以分為基于規(guī)則的(Rule-Based)機器翻譯,基于實例的(Example-Based)機器翻譯和統(tǒng)計型的(Statistical)機器翻譯這三種基本類型。
  1.1.基于規(guī)則的機器翻譯系統(tǒng)(Rule-Based Machine Translation, RBMT):其基本工作原理基于一個假設(shè),即語言無限的句子可以由有限的規(guī)則推導(dǎo)出來?;谶@個假設(shè)的機器翻譯方法又可以分為三類:直接翻譯法(Direct Translation),中間語言法(Interlingual Approach),和轉(zhuǎn)換法(Transfer Approach)。它們都需要用到大規(guī)模的雙語詞典,需要用到源語言推導(dǎo)規(guī)則,語言轉(zhuǎn)換規(guī)則和目標語言生成規(guī)則;其不同點在于對語言進行的分析深度不同。如直譯法幾乎不需要進行語言分析,中間語言法和轉(zhuǎn)換法需要對源語言和目標語言進行某種程度的語言分析。
  1.1.1直接翻譯法(Direct Translation):這種翻譯方法直接對源文字中的字詞進行逐個翻譯,譯后文字順序按照原文順序進行排列。這是基于規(guī)則的機器翻譯的最早的工作方法。這種譯法簡單、直觀,其弊端也是明顯的:由這種方法得到的翻譯結(jié)果質(zhì)量很不令人滿意。人們已經(jīng)逐漸不再使用這種直接翻譯法。
  1.1.2中間語言法(Interlingual Approach):這種翻譯方法對源語言文字進行透徹的語言分析,將其轉(zhuǎn)化為一種中間語言表達形式,進而由這種中間語言(Interlingua)進一步生成和輸出符合目標語言語法規(guī)則的文字。這種中間語言是一種非自然語言,即不是任何國家地區(qū)人們使用的語言;而且它是一種沒有歧義的表達方式。此外,中間語言不是唯一的,不同的系統(tǒng)采用不同的中間語言。任意一種語言經(jīng)由中間語言譯為其它任意一種語言,理論上這種中間語言法是最有效率的一種翻譯方式。假定世界上總共有n種自然語言,使用中間語言法,只需2n個模塊就可以解決所有自然語言之間的互譯問題。不使用中間語言,這些語言間的互譯則需要n(n-1)個模塊。當(dāng)n大于3時,2n小于n(n-1)。我們知道,世界上的自然語言種類遠大于3,因此2n個模塊的數(shù)量遠小于n(n-1)個模塊的數(shù)量。
  1.1.3轉(zhuǎn)換法(Transfer Approach):這種翻譯方法先對源語言文字進行一定程度的語言分析,去除語法的因素,生成源語言的中間表達方式,然后經(jīng)由轉(zhuǎn)換,生成目標語言的中間表達方式,再由目標語言的中間表達方式生成和輸出符合目標語言語法規(guī)則的文字。目前來說,轉(zhuǎn)換法的語言分析和實現(xiàn)方法在三種方法中最為復(fù)雜,得到的翻譯質(zhì)量在三種方法中也是最好的,是目前商業(yè)上最常使用的翻譯方法,在商業(yè)上最為成功。
  在許多基于規(guī)則的機器翻譯系統(tǒng)中,由語言學(xué)家輔助編寫一系列關(guān)于源語言和目標語言的語法規(guī)則,以及將源語言數(shù)據(jù)轉(zhuǎn)換為目標語言數(shù)據(jù)的轉(zhuǎn)換規(guī)則。然而使用全人工來制作這些規(guī)則非常昂貴、費時,而且易于出錯。一個解決方法便是將以往的歷史翻譯結(jié)果作為資源庫,其中的源語言文字和它對應(yīng)的目標語言譯文作為例子,從中嘗試提取出恰當(dāng)?shù)囊?guī)則。方法之一是對源文字和目標語言譯文作人工標記以示關(guān)聯(lián)。Sato 和Nagao[1]研發(fā)出一個系統(tǒng),用“平面依賴關(guān)系樹”來表示源語言文字和目標語言文字。這種關(guān)系樹型數(shù)據(jù)結(jié)構(gòu)是計算機高效識別的一種形式。通常用兩個層次代表源語言和目標語言之間的關(guān)聯(lián):第一層次依賴于文字的表面形式(如字、詞順序),用于源語言的分析和目標語言的生成;第二層次依賴于字詞間的語義關(guān)聯(lián),用于從源語言向目標語言的轉(zhuǎn)換。這種機器翻譯系統(tǒng)在基于規(guī)則的機器翻譯基礎(chǔ)上,利用了實例庫的優(yōu)勢。
  隨著大量歷史翻譯結(jié)果的積累,出現(xiàn)了基于實例的機器翻譯系統(tǒng),人們將這些已經(jīng)完成的翻譯結(jié)果作為資源庫,利用到機器翻譯中來。
  1.2.基于實例的機器翻譯(Example-Based Machine Translation,EBMT):其基本工作原理是基于類比(Analogy)的原則,從實例庫中匹配出與源文字片段最相似的文字片段,取出實例文字片段對應(yīng)的目標語言翻譯結(jié)果,進行適當(dāng)?shù)母脑?,最終得出完整的翻譯結(jié)果。基于實例的機器翻譯其核心思想最早由Mako Nagao 提出[2],他提出:人們在翻譯簡單句子時并不作深層語言分析,而是翻譯。首先把源句子分解成若干片段,然后將這些片段譯為目標語言,每個片段的翻譯都是通過與例句做匹配以類比的原則得到的,最后將這些譯后句子組合成一個長句子。
  1.2.1.實例庫的構(gòu)成:實例庫也稱為語料庫(Corpus),由已經(jīng)完成的翻譯結(jié)果構(gòu)成。這些現(xiàn)成的翻譯結(jié)果也稱為語料,包括人工翻譯的結(jié)果和經(jīng)過人工編輯的機器翻譯結(jié)果。語料庫由雙語對構(gòu)成,包括源語言文字片段和目標語言譯文文字片段兩部分。這些翻譯結(jié)果要先經(jīng)過拆分和對齊處理,才可以成為語料庫中的可用語料。因此語料庫也稱為平行雙語語料庫(Parallel Corpus)。拆分和對齊目前有多種形式,如句子水平的對齊和短語水平的對齊。對齊的文字片段大小的選擇,會直接影響匹配的效率和翻譯結(jié)果。
  1.2.2.語料拆分的碎片化問題:Nirenburg等(1993)指出,在基于實例的機器翻譯系統(tǒng)(EBMT) 中,實例語料存在一個文字片段長度和相似度之間的一個矛盾。文字片段越長,越不易得到一個相似度高的匹配;文字片段越短,越可能得到一個大致匹配,但是得到低質(zhì)量翻譯結(jié)果的風(fēng)險也越大。比如由段落劃分邊界產(chǎn)生的重疊問題以及不恰當(dāng)?shù)膭澐謱?dǎo)致的翻譯質(zhì)量下降。直觀上似乎是選擇以句子為單位劃分得到的語料對比較好,有諸多優(yōu)勢如:句子的邊界劃分清楚,一些簡單句子的結(jié)構(gòu)清晰。然而在實際應(yīng)用中,以句子為單位并不是最恰當(dāng)?shù)姆绞?。實踐證明匹配和重組過程需要使用更加短小的片段[3]。(當(dāng)然,這些研究結(jié)果是以歐美語系語言之間的翻譯研究結(jié)果為基礎(chǔ)的。)
  1.2.3.實例庫定制:實例語料的的范圍和質(zhì)量影響著基于實例的機器翻譯系統(tǒng)(EBMT)的翻譯質(zhì)量水平。在某特定領(lǐng)域獲取高質(zhì)量語料可以大大提高機器翻譯在此領(lǐng)域的翻譯質(zhì)量,稱為語料(實例)庫的定制。
  1.3. 統(tǒng)計型機器翻譯系統(tǒng)(Statistical MT):IBM公司的Brown在1990年首先將統(tǒng)計模型用于法-英機器翻譯。其基本思想是:把機器翻譯問題看成是一個噪聲信道問題,然后用信道模型來進行解碼。翻譯過程被看作是一個解碼的過程,進而變成尋求最優(yōu)翻譯結(jié)果的過程?;谶@種思想的機器翻譯重點是定義最合適的語言概率模型和翻譯概率模型,然后對語言模型和翻譯模型的概率參數(shù)進行估計。語言模型的參數(shù)估計需要大量的單語語料,翻譯模型的參數(shù)估計需要大量平行雙語語料。統(tǒng)計機器翻譯的質(zhì)量很大程度上取決于語言模型和翻譯模型的性能,此外,要找到最優(yōu)的譯文,還需要有好的搜索算法。簡單說,統(tǒng)計機器翻譯首先建立統(tǒng)計模型,然后使用實例庫中的實例對統(tǒng)計模型進行訓(xùn)練,得到需要的語言模型和翻譯模型用于翻譯。
  統(tǒng)計型機器翻譯,除了基于噪聲信道理論的系統(tǒng)以外,還有基于最大熵方法的系統(tǒng)。博格(A.L.Berger)在1996年 提出自然語言處理中“最大熵方法”(Maximum Entropy Approach)。德國人奧赫 (Franz Joseph Och)等發(fā)現(xiàn), 把IBM公司的統(tǒng)計機器翻譯基本方程式中的翻譯模型轉(zhuǎn)變?yōu)榉聪蚍g模型,總體的翻譯正確率并沒有降低,由此,他們提出基于最大熵方法的機器翻譯模型。
  統(tǒng)計型機器翻譯取得了一定的成績,然而純統(tǒng)計設(shè)計卻不能解決所有困難。統(tǒng)計型的方法不考慮語言的語義、語法因素,單純用數(shù)學(xué)的方法來處理語言問題,有著巨大的局限性。于是人們開始探索基于統(tǒng)計方法和其它翻譯方法的聯(lián)合應(yīng)用。如統(tǒng)計的和基于實例的機器翻譯系統(tǒng),統(tǒng)計的和基于規(guī)則的機器翻譯系統(tǒng),等等。
  2. 綜合類型的機器翻譯系統(tǒng):以上三個基本機器翻譯系統(tǒng)各有優(yōu)勢和長處,同時又不可避免的具有某種缺陷和局限性。如基于規(guī)則的機器翻譯系統(tǒng)(RBMT)可以準確的描述語言學(xué)特征和規(guī)律,然而制定適用和完備的語言規(guī)則卻不是一件容易的事;基于實例的機器翻譯系統(tǒng)(EBMT)可以充分利用已有的翻譯結(jié)果,但是實例庫的維護需要大量的人工和費用;統(tǒng)計型的機器翻譯(Statistical MT)可以緩解知識獲取的瓶頸問題,但是純數(shù)學(xué)的方法難于完全解決語言中的復(fù)雜問題。為進一步提高機器翻譯系統(tǒng)的翻譯水平,人們綜合以上幾個基本類型的優(yōu)勢,又發(fā)明了混合型機器翻譯系統(tǒng)(Hybrid MT),多引擎機器翻譯系統(tǒng)(Multi-Engine MT)和提出了基于知識的機器翻譯系統(tǒng)(Knowledge-Based MT)的理論。
  2.1混合型機器翻譯系統(tǒng)(Hybrid MT):翻譯過程使用兩種或以上機器翻譯原理。比如:基于規(guī)則的機器翻譯方法的核心是構(gòu)造完備的、適應(yīng)性較強的規(guī)則系統(tǒng)。如何得到完備和適應(yīng)性強的規(guī)則系統(tǒng)成為研究焦點。使用傳統(tǒng)的方法,語法規(guī)則庫的建立需要大量的人力、物力,大量的語言語法規(guī)則之間往往存在著不可避免的沖突,規(guī)則的完備性和適應(yīng)性不能得到保證。隨著人們翻譯工作的進行,生成大量已完成的翻譯結(jié)果,形成大量語料。人們想到了使用統(tǒng)計方法從現(xiàn)有語料中自動提取我們需要的語言語法信息。從實例中抽取語言轉(zhuǎn)換規(guī)則,將基于實例的機器翻譯作為研究技術(shù)來建立語言規(guī)則基礎(chǔ),而不是單純用來進行類比翻譯。通過一個歸納的過程,從大量例句中提出抽象的規(guī)則 [4] [5]。這樣傳統(tǒng)的基于規(guī)則的機器翻譯方法發(fā)展成為以規(guī)則為基礎(chǔ),語料庫為輔助的機器翻譯方法。這種翻譯模型可以稱之為混合型機器翻譯系統(tǒng)(Hybrid MT)。
  2.2多引擎機器翻譯系統(tǒng)(Multi-Engine MT):這種機器翻譯系統(tǒng)的基本思想是幾架機器翻譯引擎同時進行并行翻譯,并行翻譯的這幾架翻譯引擎分別基于不同的工作原理,給出多個翻譯結(jié)果,然后通過某種機制或算法篩選并生成最優(yōu)翻譯結(jié)果進行輸出。多引擎機器翻譯系統(tǒng)的一種工作方式如:接收到源文字后,先將文字轉(zhuǎn)化為若干文字片段,由多個機器翻譯引擎進行并行翻譯,各個文字片段均得到多個翻譯結(jié)果, 通過某種機制選擇最優(yōu)的翻譯片段組成最優(yōu)組合,最后輸出最優(yōu)的翻譯結(jié)果[6]?;蛘呤墙邮盏皆次淖趾螅啥鄠€機器翻譯引擎進行并行翻譯,得到多個翻譯結(jié)果,然后對各個翻譯結(jié)果進行字詞的比較,通過某種假設(shè)檢驗和算法,選擇適當(dāng)?shù)淖衷~翻譯組成最優(yōu)翻譯結(jié)果輸出[7]。
  2.3. 基于知識的機器翻譯系統(tǒng)(Knowledge-Based MT):在機器翻譯研究中,人們越來越發(fā)現(xiàn)在翻譯過程中正確的理解、領(lǐng)會源語言的重要性。語言有著其復(fù)雜性。其中語言的模糊性是各種機器翻譯系統(tǒng)所面對的最頑固的難題。語言的模糊性指語言文字同一表層結(jié)構(gòu)對應(yīng)著兩種或兩種以上的深層結(jié)構(gòu),簡單說就是一種形式對應(yīng)著兩種或兩種以上的解釋,必須通過上下文內(nèi)容的提示和綜合知識背景、常識才可能做出正確的詮釋。受人工智能,知識工程的發(fā)展影響,人們開始強調(diào)對源語言更為徹底的理解,提出不僅需要進行深層語言分析,還需要進行世界知識的積累和處理,建立知識庫,以助于理解語言。通過對世界知識的了解,解決機器翻譯中遇到的語言模糊問題。為了從根本上徹底的解決機器翻譯所面對的語言的模糊性問題,人們提出了基于知識的機器翻譯系統(tǒng)。
  2.3.1基于語義網(wǎng)的機器翻譯(Semantic Web based Machine Translation, SWMT):是基于知識的機器翻譯系統(tǒng)的一種實現(xiàn)方式。語義網(wǎng)(Semantic Web),指通過某種技術(shù),將現(xiàn)有網(wǎng)絡(luò)上的知識內(nèi)容轉(zhuǎn)化為機器可以辨識的內(nèi)容,成為機器翻譯的“世界知識庫”。這些理論基于Tim Berners-Lee提出的觀點“知識一旦經(jīng)定義和形式化后,便可以通過任意方式訪問”。萬維網(wǎng)最初的設(shè)計是希望它簡單,去中心化并且盡可能的易于互動。網(wǎng)絡(luò)的發(fā)展證明它是一個巨大的成功。然而,網(wǎng)絡(luò)上面的信息都是面向人類大腦的。為了讓計算機也能夠接受和利用這些信息資源,在新的世紀一種擴展和補充性質(zhì)的技術(shù)出現(xiàn)了, 稱為W3C,Semantic Web3 (三維語義網(wǎng))。三維語義網(wǎng)絡(luò)的基礎(chǔ)技術(shù)是數(shù)據(jù)格式的“資源描述構(gòu)架”( ‘Resource Description Framework’,RDF), 它定義了一種結(jié)構(gòu),用一種自然的方式來描述計算機處理的巨大量的數(shù)據(jù)[8]。目前人們已經(jīng) 在嘗試將現(xiàn)有的機器翻譯系統(tǒng)整合入語義網(wǎng),以充分利用世界知識/專家知識, 提高機器翻譯質(zhì)量[9]。
  3.語音翻譯(Speech Translation):語音翻譯是與文字翻譯相對應(yīng)的一種機器翻譯分類,與前面的分類有著不同。但是有著廣泛的應(yīng)用,如日常交談、電話通話、會議講話等對語音交流內(nèi)容的自動翻譯,在實際應(yīng)用中非常重要。語音翻譯在翻譯之前增加了一個語言識別(Speech Recognition)過程,形成正確的文字內(nèi)容輸入,并且在翻譯過程完成后增加了一個語音合成(Speech Synthesis)過程, 形成一個正確的語音內(nèi)容輸出。其中語音識別技術(shù)和語音合成技術(shù)都有著專門研究,樂文駐馬店翻譯公司這里不再贅述。
閱讀文章:積分+1