机器翻译概述

第4卷第1期辽宁师专学报Vol. 4No. 12002年3月 Journal o f Liaoning Teachers College Mar. 2002 文章编号:1008-5688(2002) 01-0008-04

机器翻译概述

吕学强

(抚顺师专, 抚顺 113006)

摘 要:介绍了国内外机器翻译的历史与现状, 总结了机器翻译的基本过程, 阐述了机器翻译的一些基本理论和方法.

关键词:机器翻译; 自然语言; 源语分析; 目标语生成

中图分类号:TP 391 2 文献标识码:A

1 自然语言理解与机器翻译

自然语言理解(NaturalLanguage Understanding, NLU) , 也称为计算语言学(Computational Linguistics) , 是研究如何利用计算机来理解和生成自然语言的理论和方法[1]. 它是人工智能三大研究方向之一, 主要包括两个组成部分:(1) 让计算机懂得自然语言文本意义的理解过程; (2) 以自然语言文本来表达给定意图或思想的生成过程. 自然语言理解是一个极其复杂的研究课题, 是一门自然科学和社会科学交叉的学科, 特别是计算机科学、数学、语言学、心理学和哲学相互交叉的科学.

所谓自然语言就是我们生活中使用的语言, 如汉语、英语、日语等等. 它是相对于人工设计的形式化的计算机语言如Basic 、Fortran 、C 、Lisp 等等而言的. 随着社会信息化程度的提高, 人们越来越重视NLU 技术的研究. 其研究成果已经在机器翻译、信息检索、自然语言人机接口等重要领域得到应用.

机器翻译(MachineTranslation, MT) 是自然语言处理中的一个最早的研究分支, 它是利用计算机把一种自然语言转变成另一种自然语言的过程. 用以完成这一过程的软件叫做机器翻译系统.

从计算机刚刚诞生之日起, 人们就曾经尝试用它来进行一些语言现象的处理工作. 自然语言理解的研究, 最初就是从机器翻译开始的. 随着信息时代的到来, 信息爆炸 成为信息处理领域的瓶颈问题, 不同语种之间大量的信息交流更加大了问题的严重性. 不同语言之间的翻译工作越来越迫切, 并且工作量也越来越大. 如何利用计算机高效率的信息处理能力突破不同语种之间的语言障碍, 成为全人类面临的共同问题. 机器翻译便是解决这个问题的有力手段之一, 这也是机器翻译长期成为自然语言处理研究中心的主要原因.

2 机器翻译的历史与现状

机器翻译的发展经历了兴起、低落和重新兴盛的曲折历程. 在昌盛的时候, 人们为研究收稿日期:2002! 01! 10( , , , 究, 5篇.

成果的精彩纷呈和应用的成功而欢呼, 即使在低潮时, 人们也在不断地反思, 为重新发展积蓄力量.

2 1国外的状况

机器翻译最早开始于美国, 自本世纪40年代电子计算机诞生之日起就开始了将计算机应用于语言翻译的探索. 1949年, 美国工程师W. Weaver 向大约200位熟人散发了题为 翻译 的备忘录, 对机器翻译的重要性及可行性进行了论证. 1952年, 第一次全美机器翻译会议召开. 1954年, ∀机器翻译#创刊. 同年, Georgeton 大学成功研制了第一个机译系统, 机译掀起热潮. 然而, 由于一开始人们对机器翻译的复杂性估计不足, 机器翻译在当时还仅仅局限于词层之间的转换, 机译迅速走进了困境之中. 因此, 1966年, Barlill 在美国全国科学院的ALPAC 报告中指出:机器翻译速度慢, 准确率差, 比人工翻译费用高得多, 在近期或可以预见的未来, 开发出实用的机器翻译系统是不可能的. 各部门纷纷停止了对机器翻译研究的经费支持, 从而导致机译走向低潮.

在以后的几十年里, 语言学的研究有了长足的进步, 人们从语法、语义和语用学等角度深刻地剖析了语言学现象.

这样, 从70年代后期, 机器翻译又迅速发展起来. 各种实用的和实验的系统相继推出. 例如, 1979年加拿大推出的Weinder 系统和欧共体研究的EURPOTRA 多国语翻译系统等. 尤其是80年代中期以后机译处于空前繁荣时期. 此时, 无论是经典语言学理论还是新兴的科学! ! ! 计算语言学理论的发展都日益完善. 同时, 出现了不少商品化的系统, 如美国的SYSTRAN 系统、美国Texas 大学与西德Simon 公司合作研制的ME TAL 系统、日本日立公司的ATLAS 系统及法国Grenoble 大学的CETA 系统, 等等.

2 2国内的状况[2]

我国机器翻译的研究从一开始就得到了国家的高度重视. 早在1956年它便以 机器翻译/自然语言的数学理论 列入了当时的∀科学发展纲要#. 以后则列为 六五 、 七五 , 以及 863 等重大科研项目. 但因为 文革 有过10年的停滞.

70年代中期, 我国机器翻译研究从停滞走向了复苏. 80年代中期到90年代初期产生了两个在中国机译史上具有重要意义的实用化系统. 它们分别是军事科学院研制的 KY-1 英汉机译系统和中科院计算所研制的 863-I MT 英汉机译系统.

90年代初期至今, 中国的机器翻译走入了快速发展的时期, 出现了许多商品化系统. 近期的机译系统大体上有这样一些特点:多数配有大规模的多种领域的专业词典, 多数能在网上运行, 有相当不错的方便用户的界面. 新的应用领域的机器翻译研究, 如对话翻译系统的研发等也已开始.

3 机器翻译的基本过程

机器翻译的总任务可以描述为:将一种语言(源语言) 的文本送入计算机, 通过计算机程序生成另一种语言(目标语言) 的文本, 且源语言文本与目标语言文本具有相同的含义. 机器翻译系统的类型很多, 采取的策略和技术也有差别, 但它们的基本工作过程大体上是一致的. 机器翻译的第一步是在不同层次上分析源文本, 而后是目标语文本的生成. 这两个步骤是机器翻译系统基本实现过程中的两个主要组成部分.

3 1 源语分析

源语分析是所有现代机器翻译系统的基础, 翻译的质量本质上依赖于分析的质量和深度. 所谓源语分析, 就是遵循一定的语言学基础, 寻求源语文本的表示形式与其对应内容之间所存在的映射关系的过程. 文本内容可以由句法结构表达式、文本命题含义表达式、综合的中间语言文本描述. 典型的源语分析手段为:依据与源语文本所表达含义相关的词汇、句法结构、单词和句子的顺序, 灵活地找出目标语译文. 源语分析的深度不同, 是造成各机译系统之间存在差异的主要因素.

源语分析涉及多个不同层次, 分析过程按照复杂度递增顺序可划分为以下几个阶段:

(1) 形态分析:用于获取源语言词汇原形. 在机译系统的研制中, 两层分析法是普遍采用的形态分析理论[3], 而有时也采用不太通用但更适合于特定语言、特定任务的方法.

(2) 句法分析:用于摘取源语文本短语结构、句法结构的依存性, 即确定输入文本中词汇的词性、短语边界及短语的内部结构.

(3) 语义分析:利用文本含义描述语言建立知识结构, 反映源语文本的词汇、词义及相互之间所存在的语义依存关系, 可消除词义歧义、介词短语修饰歧义、复合词分解歧义等等.

(4) 语用分析:根据源语文本元素之间所存在的各种面向应用领域和修辞的关系, 建立源语文本语义结构. 语用分析主要解决指代歧义问题、通过语义格角色约束的确定、比喻和换喻的理解[4]、坏结构输入所引起的问题以及省略情形[5]等等.

3 2目标语生成

通常, 目标语生成被看作源语分析的逆过程, 但也具有自身特点, 主要完成以下两项任务:(1) 文本规划:对各种表达方式进行选择, 确定欲实现的目标语文本的有关内容、修辞方式等信息.

(2) 表层实现:根据目标语语法, 将由词汇组成的句法表达式映射为表层字符串.

4 机器翻译研究中的一些理论和方法

人类的翻译过程是一个非常复杂的智能活动, 由此不难推断, 机器翻译也是一项极具挑战性的研究课题, 因为其中几乎涉及了自然语言处理研究中的各个方面. 在机器翻译研究领域, 研究者们已经提出了各种理论和方法, 解决了很多问题, 但仍然存在着大量的困难. 4 1基于知识的机器翻译方法

传统的机器翻译体系基本可以纳入基于知识的方法(Kno wledge Based MT, KB MT) 的范畴, 也称为基于规则(Rule Based) 的方法. 这其中包括经典的基于结构转换(Transfer Based) 的方法和基于中间语言(Interlingua Based) 的方法. 有关这两种方法的优缺点, 即关于结构转换的充分性和中间语言的可行性, 曾经有过广泛的争论, 但人们也一致认为这两种方法只是在知识的表达层次上存在差别.

基于知识的机器翻译系统面临的最大的问题就是其需要的海量的计算语言学资源, 如大规模的句法和词汇系统. 从目前语言知识工程的进展来看, 为一个通用的、高质量的机器翻译系统手工构建这些资源在可以预见的将来仍然是不现实的.

4 2经验主义的机器翻译方法

由于KB MT 面临困境与挑战, 一些研究者开始寻求另外一种解决问题的途径:即从数量日益增长的机器可读文本出发, 使用经验主义的方法构造自动翻译过程所需的语言知识. 与KB MT 中提倡的尽量应用深层语言学知识的主张相反, 经验主义机器翻译方法中这些资源通.

经验主义的机器翻译方法始于1984年日本东京大学的长尾真教授提出的基于类比的机器翻译方法[6]. 在这篇著名的论文中, 长尾真主张, 语言学数据是比语言学理论更可靠的知识源, 因此也可以为机器翻译系统奠定更坚实的基础. 他建议使用无标注的实例数据库和一个等价词对的集合作为系统的知识源(动词例外, 需要使用格框架表达) , 翻译引擎主要负责计算输入句子和候选实例中词汇间语义的相似性.

很多研究者对长尾真的方法进行了扩展, 这些工作主要包括:基于实例的机器翻译(ExampleBased MT, EB MT) , 基于记忆的机器翻译(Memory Based MT, MB T) , 转换驱动的机器翻译(Transfer-Driven MT, TD MT) 等. 所有的这些方法现在可以统称为EB MT 方法.

另外一种经验主义的MT 系统称为随机机器翻译系统(Statistical MT, SMT) . 以Hansards 英法双语语料为基础, IBM 的Brown 等人实现了第一个SB MT 系统模型Candie7. 这种翻译方法是将翻译系统看作是一个噪音信道, 令表示以e 为输入通过信道获得译文f 的概率, 则给定输入f, 机器翻译的过程可以描述为在目标空间E 中寻找满足条件的句子. 就是翻译系统的输出结果.

尽管这种随机机器翻译模型解决了知识的获取问题, 但其模型巨大的参数空间以及由此而需要的数据资源和计算资源都是十分可观的. Brown 等人的初步实验结果表明, 基于这种 纯粹 统计的方法仅能得到不到40%的准确率, 而附加了基本词法信息后, 其准确率提高到了60%.这似乎预示着将SMT 与KB MT 相结合才是未来研究中真正的出路.

5 小结

机器翻译技术在经济发展和社会生活中日趋重要, 对加速和扩展世界范围内的信息传播具有深远意义. 机器翻译领域也为知识库、语言学理论、语言描述等研究的质量评估提供方便、理想的测试环境, 可作为设计、实现大型软件系统的软件工程实验场地. 基于理解的机译系统的各组成部件可直接适用于计算语言学和人工智能领域的其它应用. 机器翻译实质上是一个综合的研究领域, 它根植于科学和工程、基础研究和实际开发、计算机科学、语言学、人工智能及软件工程等多个领域的交叉地带, 也是理论语言学、计算语言学及描述性语言学的最自然应用. 机器翻译是一个真正的科学与技术相结合的多学科产物. 机器翻译的研究必将推动这些学科的迅速发展.

参考文献:

[1]姚天顺. 自然语言理解! ! ! 一种让机器懂得人类语言的研究[M]. 北京:清华大学出版社, 1995.

[2]董振东. 中国机器翻译的世纪回顾[J]. 中国计算机世界, 2000, 1.

[3]Karttunen L. KIMMO:A Two-Level Morpholog ical Analyzer [J]. Texas Linguistic Forum, 1993, 22:165-186.

[4]Fass D, and Wilks Y. Preference Semantics, III-Formedness and Metaphor [J]. Computational Linguistics, 1983,

9(2) :178-187.

[5]Carberry S. A Pragmatics-based Approach to Unders tanding Intersentential Ellipsis [A]. In:Proceedin gs of the 23rd

Annual Meeting of the Association for Computational Linguistics [C]. 1985. 188-197.

[6]Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle [A]. In:

Elithorn A and Banerji R eds. Artificial and Human Intelligence, Edited Review Papers presented at the International NATO Symp osiu m [C].Amsterdam:NATO Publications, 1984. 173-180.

[7]Brown P F. A Statistical Approach to Machine Translation [J].Computational Linguistics, 1990, 16(2) :79-85. ( 唐国民


© 2024 实用范文网 | 联系我们: webmaster# 6400.net.cn