网络时代的自然语言处理

作者：余卫华冯志伟 《光明日报》（ 2017年04月09日 12版）

采用计算机技术来研究和处理自然语言是20世纪40年代末和50年代才开始的。50多年来，这项研究取得了长足进展，成为当代语言学中一门重要的新兴学科——自然语言处理。在信息网络时代，自然语言处理引起了包括计算机专家和语言学家在内的越来越多的学者的重视，成为文科和理科紧密结合的一门典型的交叉学科。语音合成、语音识别、信息检索、信息抽取、机器翻译、人机对话等，都是自然语言处理的重要应用领域。

形式模型以简驭繁

由于现实的自然语言极为复杂，不可能直接作为计算机的处理对象，因此，在上述应用领域中，都需要根据要求把自然语言处理抽象为一个问题，再把这个问题在语言学上加以形式化，建立语言的形式模型，使之能以一定的数学形式，严密而规整地表示出来，并且把这种数学形式表示为算法，建立自然语言处理的计算模型，使之能够在计算机上实现。

在自然语言处理中，算法取决于形式模型，形式模型是自然语言计算机处理的本质，而算法只不过是实现形式模型的手段而已。这种建立语言形式模型的研究可以起到以简驭繁的效果，它应当属于自然语言处理的基础理论研究。

在用形式模型建立算法来求解自然语言处理的问题时，往往难以满足所求解问题的存在性、唯一性和稳定性这三个条件的要求。因此，对于自然语言处理问题的求解，应当加入适当的约束条件，从而顺利地求解这些问题。

在当前的自然语言处理研究中，可以通过语言学、计算机科学、心理学、认知科学、人工智能等多学科的通力合作，把人类知识的威力与计算机的计算能力结合起来，给自然语言处理的形式模型提供大量的、丰富的约束条件。自然语言处理这个学科的边缘性、交叉性特点，为解决这样的问题提供了有力的手段。

50多年来，学者们在自然语言计算机形式分析的理论和方法方面进行了深入的研究，建立了自然语言处理的各种形式模型，包括基于短语结构语法的形式模型、基于合一运算的形式模型、基于依存和配价的形式模型、基于格语法的形式模型、基于词汇主义的形式模型、语义自动处理的形式模型、语用自动处理的形式模型、语音自动处理的形式模型等。

形式模型是描述自然语言内在规律的数学模型，可以分为传统的规则型形式模型和基于统计的形式模型两种。

规则型形式模型是人工编制的语言规则，这些语言规则来自语言学家掌握的语言学知识，是一种知识驱动的形式模型，具有一定的主观性和片面性，难以处理大规模的真实文本。

基于统计的形式模型通常是概率模型，计算机借助于统计模型的概率参数，可以估计出在大规模真实的语料库中语言成分出现的可能性，而不是单纯地判断这样的语言成分是否符合语言学规则，这是一种数据驱动的形式模型。目前，自然语言处理中的基于统计的形式模型已经相当成熟，例如，隐马尔可夫模型、概率上下文无关语法、基于决策树的语言模型、最大熵语言模型等。

数据驱动深度学习

随着互联网的迅速发展，我们进入了大数据时代。数据挖掘成为计算机科学的一个重要研究领域。由于大多数的数据是以文本形式存在的，所以，数据挖掘所要挖掘的数据，主要还是文本数据，而这些文本数据恰恰就是自然语言处理的研究对象。因此，数据挖掘中采用的机器自动学习的方法，对于自然语言处理具有重要的价值。

机器自动学习的方法主要有三种类型：有指导的学习、无指导的学习、半指导的学习。

有指导的学习实际上是对于数据进行分类，首先使用事先定义好的类别或范畴标记对数据实例进行标注，机器根据这些标注好的训练数据进行自动学习，再根据学习得到的知识对新的数据进行分类。

在无指导的学习中，用来学习的数据没有使用事先定义好的类别或范畴标记进行过标注，要使用机器学习的算法来自动地发现隐藏在数据中的结构或规律。这种无指导学习的一个关键技术是聚类，聚类技术根据数据实例的相同点或相异点，自动把它们聚类为不同的组合。例如，可以把互联网的页面聚类为不同的组合，每一个组合代表一个特定的主题，也可以把文件聚类为不同的层次，每一个层次代表一个特定的主题层次。

有指导的学习要求事先人工标注大量的数据实例，需要付出巨大的人工劳动量，费力而又费时。为了减少人工标注的劳动量，可以同时从标注过的数据实例和没有标注过的数据实例中进行学习，标注过的数据实例的集合可以比较小，而没有标注过的数据实例的集合可以很大，这样的模型叫作半指导的学习。

机器自动学习的这些方法已经成熟，而且广泛地应用于自然语言处理研究中，这就从根本上改变了传统获取语言知识的手段，对于自然语言处理的发展具有革命性意义。

目前，基于多层神经网络的、以大数据作为输入的深度学习方法引入到了自然语言处理中。这是一种新型的机器自动学习。这种多层神经网络是非线性的，可以重复利用中间层的计算单元，减少参数，计算机从海量的大数据中可以自动地产生模型的特征和算法。

最近，深度学习向神经网络中融入了记忆机制，把知识驱动与数据驱动结合起来，架起了符号主义与连接主义之间的桥梁。这应当是今后自然语言计算机形式分析发展的方向。

（作者：余卫华冯志伟作者分别系越秀外国语学院教授，杭州师范大学钱塘学者讲座教授、教育部语言文字应用研究所研究员）

返回目录放大

缩小

全文复制