【语言论坛】
传统语言学的目的在于规定正确读和写的种种规则,这样的语言学有点像法律;
历史语言学用谱系树的方法来表示不同语言之间的亲属关系,这样的语言学一如生物学;
结构语言学力图找出语言中各个要素之间的结构关系,这样的语言学酷似化学。
那么,语言学和数学究竟有什么关系呢?
华罗庚说过:“宇宙之大,粒子之微,火箭之速,化工之巧,地球之变,生物之谜,日用之繁,无处不用数学。”马克思指出:“一种科学,只有在成功地运用数学时,才算达到了真正完善的地步。”恩格斯也认为,“任何一门科学的真正完善在于数学工具的广泛应用。”
他们都认识到数学在科学研究中的重大价值。数学的用处如此之大,其原因在于数学具有逻辑之美,而任何领域都离不开逻辑。
那么,语言学和数学有什么关系呢?
语言学和数学都是有相当长历史的古老学科。语言学历来被看作典型的人文科学,数学则被许多人看成最重要的自然科学。在学校教育中,语文和数学被认为是两门基础学科,成为任何一个受教育者的必修课。它们似乎成了学校教育的两个极点:一个极点是作为文科代表的语文,一个极点是作为理科代表的数学。在一般人看来,语文和数学似乎是两门风马牛不相及的学科;甚至有的人认为,用数学方法来研究语言,是一种离经叛道的古怪行为。很少有人想到,这两门表面上如此不同的学科之间竟然还存在着深刻的内在联系。
漫长的发现过程
语言具有奇妙的结构,数学具有逻辑之美,在人类的科学发展历史上,学者们经过了相当漫长的过程才逐渐察觉到语言学和数学之间的亲密关系,认识到可以用数学的逻辑之美来揭示语言的结构之妙。
早在19世纪中叶,就有人用数学来研究语言现象。1838年,英国学者皮特曼选取了20本书,每书取500词,共计1万词,以此为语料进行统计,得到常用英语词频表,于1843年出版。这可能是我所看到的文献中使用数学方法研究词频的最早记载。
1913年,前苏联数学家马尔可夫采用概率论方法研究了《欧根·奥涅金》中的俄语元音和辅音字母序列的生成问题,提出了马尔可夫随机过程论,后来成了数学的一个独立分支,对现代数学产生了深远影响。语言结构中所蕴藏的数学规律,成了马尔可夫创造性思想的源泉。《欧根·奥涅金》是普希金的长篇叙事诗,讲的是一个哀婉的爱情故事,我们读《欧根·奥涅金》,欣赏的是它的故事情节或者独特的诗歌节律,而马尔可夫却独具慧眼,从中发现了隐藏在字里行间的数学规律。
1935年,美国语文学家齐夫提出了齐夫定律,用数学方法描述频率词典中单词的序号与频率的分布规律。
计算机和语言的不解之缘
与此同时,有一些杰出的学者学开始从计算机和通信的角度来关注语言问题,取得了突破性的成就。
英国科学家图灵在1950年发表的《机器能思维吗》一文中天才地预见到计算机和自然语言将会结下不解之缘。他提出,检验计算机智能高低的最好办法是让计算机来讲英语和理解英语。
20世纪50年代提出的自动机理论来源于图灵在1936年提出的算法计算模型,这种模型被认为是现代计算机科学的基础。图灵的工作首先导致了麦克罗克–皮特的神经元理论。一个简单的神经元模型就是一个计算的单元,它可以用命题逻辑来描述。接着,图灵的工作导致了有限自动机和正则表达式的研究,这些研究都与语言的形式化描述有密切关系,把数学与语言紧密地联系起来。
1948年,美国科学家香农把离散马尔可夫过程的概率模型用来描述语言的自动机。1956年,语言学家乔姆斯基从香农的工作中吸取了有限状态马尔可夫过程的思想,首先用有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作产生了“形式语言理论”这样的研究领域,采用代数和集合论把形式语言定义为符号的序列。乔姆斯基在研究自然语言的时候首先提出了上下文无关语法,计算机科学家巴库斯和瑙尔等在描述ALGOL程序语言的工作中,分别于1959年和1960年独立地提出了巴库斯–瑙尔范式,并发现他们提出的这种范式与乔姆斯基的上下文无关语法是等价的。这些研究把数学、计算机科学与语言学巧妙地结合起来,大大地促进了学者们采用数学方法来揭示语言的数学面貌。
这个时期的另外一项基础研究工作是用于语音和语言处理的概率算法的研制。香农把使用通信信道或声学语音这样的媒介传输语言行为比喻为噪声信道或者解码。他还借用热力学的术语“熵”作为测量信道的信息能力或者语言的信息量的一种方法。他采用手工方法来统计英语字母的概率,然后使用概率技术首次测定了英语字母的熵为4.03比特,用数学方法来描述语言的统计规律。
在这些研究的基础上,在语言学中出现了数理语言学、计量语言学等广泛采用数学方法的新兴学科。
法国数学家阿达玛是一位具有独特创见的学者,他用自己的慧眼,清楚地认识到语言学在人文科学中是最容易与数学建立联系的学科。他斩钉截铁地指出:“语言学是数学和人文科学之间的桥梁。”
显而易见,具有逻辑之美的数学确实能够帮助我们洞察语言规律,发现语言的结构之妙。
大数据时代的自然语言处理
进入信息网络时代之后,语言研究开始从大规模真实文本语料库中来获取语言知识,必须使用统计方法,进一步推动了数学在语言学中的应用。在自然语言处理中,提出了隐马尔可夫模型、最大熵、噪声信道等基于统计的数学模型,统计方法成为机器翻译研究的主流,机器翻译由基于规则到基于统计,统计机器翻译的势头日益强大,一直延续到2007年。
从2007年开始,在大数据、云计算等因素的影响下,自然语言处理在统计方法的基础上又向前跨进了一步,开始采用深度学习的方法,机器翻译、自动问答、信息检索、信息抽取等领域的研究,广泛采用循环神经网络、长短时记忆、卷积神经网络等深度学习的数学方法。深度学习比统计方法更胜一筹,取得了振奋人心的成绩。自然语言处理的研究离开数学几乎寸步难行了。
随着我国自然语言处理研究的进一步发展,越来越多的学者开始关注语言学中的数学方法,数学方法在语言研究中的应用越来越广泛。就是在传统的语言学研究中,也开始采用数学方法,而不再认为使用数学方法来研究语言是一种离经叛道的古怪行为。在语言研究中采用数学方法,现在已经得到了我国语言学界的普遍认同。随着自然语言处理研究的发展,数学已经成为语言学研究的一种最重要的工具。
今天,现代语言学的研究,特别是面向计算机的语言学研究,越来越离不开数学了。我们应当与时俱进,进行更新知识的再学习,更加自觉地把数学方法应用到语言研究中,用数学的逻辑之美来揭示语言的结构之妙,从而推进我国语言研究的现代化和信息化。
(作者:冯志伟,系杭州师范大学特聘教授)