【语言论坛】
长久以来,语言学一直被认为是典型的人文社会学科。随着现代语言学的发展,人们逐渐认识到,人类语言现象应该通过类似自然科学的一般方法进行研究,使语言学向生命与认知科学转向,实现语言学的科学化。
语言学是研究语言结构模式与演化规律的学科。对“模式”与“规律”的探求是语言学与其他科学的共同目标。然而,光有科学的目标还远远不够。演绎与归纳、定性与定量、描写与解释、假设与检验、仿真与建模等现代科学在方法论上的共同特征,正是传统语言学所欠缺的。
与此同时,中国语言学也面临着国际化问题。我们在国际语言学学术共同体中的声音还很微弱,对探求人类语言普遍规律方面的贡献也有限。造成这种局面的原因,并不能完全归结于研究对象(汉语及汉语方言为主)的不同,以及国际学术语言是英语的语言藩篱,也存在研究理念与研究方法的问题。
因此,使用科学的方法研究语言的结构模式与演化规律是实现语言学科学化和中国语言学国际化的基本途径。
虽然语言学具有悠久的计量研究传统,现代语言学的许多分支学科也离不开语言数据与计量方法的使用,但是,直接将结构模式与演化规律的发现作为目标,并以现代科学手段进行研究的,是计量语言学。
2011年,国家社会科学基金首次设立跨学科类重大项目,以刘海涛为首席专家的“现代汉语计量语言学研究”获得资助。近几年来,通过积极开展交叉学科语言研究,课题组在语言研究科学化与国际化方面取得了一些新进展。
语言规律
从文本中来,到文本中去
文本是集中体现人类文明的重要资源。发现文本中蕴含的规律,是计量语言学的根本任务。语言学中的齐普夫定律精确描述了文本中词的出现频次与其排序之间的幂律关系。虽然这个定律在不同语言中具有很强的普适性,但是人们一直无法清楚地解释这种幂律关系的成因。
我们通过计算机仿真与大规模语料库研究发现,层级结构能够产生幂律分布,齐普夫定律阐述的词频序关系实质上是词的层级结构特征在线性句子中的分布规律。
定律不仅能够描述与解释现象,还应该能够进行预测,即应用定律解决实际问题。我们在研究现代汉语新闻文本词频分布规律时发现,齐普夫定律不仅在描述不同文本的词频分布方面具有普适性,而且该定律中的参数能够细分新闻报道与评论,基于词频的计量指标能够区别口语与书面语文本。在对中国当代文学中的新诗与散文进行词汇层面的计量研究中发现:散文高频词的描述对象呈现多样化特征,而新诗的高频词则表现出较强的时代性;散文的词汇丰富程度明显低于新诗;两类文本在名词、代词的使用频次上表现出的相似性可能是新诗“散文性”的根源。
计量语言学中已经发现了一些定律或建立了一些模型,但多数以描写印欧语言为主。它们在人类语言中的普适性还需要通过更多的语言材料进行检验。我们在对现代汉语口语和书面语中的语言单位进行详尽考察后发现,描述语言单位长度分布规律的齐普夫-阿列克谢耶夫模型同样适用于描述汉语的结构长度分布。这不仅说明人类语言在单位长度分布方面具有普遍性,也揭示出不同语言通往普遍性的具体手段具有多样性。
从真实语言现象中发现具有普适性的语言定律,将这些定律协同起来,可以构建科学哲学意义上的语言学理论体系。我们借鉴印欧语言词汇协同系统,以语言结构基本单位的4个核心属性(词长、多义度、频率和多文度)为元素,并首次引入配价概念,不仅成功地构建了一个汉语词汇协同子系统模型,也为构拟基于配价与依存关系的句法协同子系统奠定了基础。
采用计量语言学的一般方法开展汉语相关研究,加强了汉语描写与解释的客观性、精确性和科学性,有助于验证语言结构模式与规律的跨语言普适性。
学科交叉
他山之石,可以攻玉
语言是一个由人驱动的复杂适应系统,因而语言研究从本质上就具有多学科交叉的特质。我们借鉴系统科学、计算机科学、仿真学、心理学等学科的研究方法开展跨学科语言研究,得到了一些采用传统语言研究方法或计量语言学一般方法难以发现的规律。
首先,现代语言学认为,语言是一个复杂适应系统。这意味着包括计量语言学一般方法在内的研究方法难以处理语言“涌现”现象。我们采用复杂网络分析方法对语言结构与演化进行了探索。比如,在对基于大规模真实语料构建的汉语字同现网络进行研究时,我们发现从网络中提取出的所有高频字同现对与汉语中的二字词具有很强的同一性,进而对汉语二字词在局部语境中的突显机制有了更深入的认识;还发现了上古、中古、近代和现代汉语的字同现网络的整体特性,以及“在”和“人”这两个词在不同时期的网络特征变化,实现了对语言系统整体和个别语言现象的共演分析。
其次,语言还是一个由人驱动的符号系统。通过将人类认知机制同语言研究相结合,可以从语言之窗洞察人类天性。
人类语言系统的运作基础是受认知机制所限而出现的省力原则(说话人与听话人之间的一种能量开销均衡)。依存距离(词间句法语义关系的一个测度)最小化就是在这个原则的作用下产生的,它是人类语言线性结构的一个普遍特征。通过计算机仿真数据与真实语言材料,我们发现了导致依存距离最小化的三个因素是交叉依存、根节点位置和组块(一种比词大的动态语言单位);同时还发现,为了降低长句的理解难度,人在认知资源的制约下会采取某些动态手段达成交际目的。
此外,我们还开展了长依存距离语言现象的心理行为实验研究,发现介词对依存距离不敏感,主谓关系中的依存距离受主语信息特征影响等规律。这也说明,语言系统的运作机理是许多因素共同作用的结果。
以上研究从静态角度揭示了语言结构的共时复杂性。在语言动态演化模式方面,我们也有新发现。比如,汉语句子的平均依存距离在持续增大,句法结构有复杂化趋势;但是汉语的主要语序并没有发生显著变化。如果表达的精确性或内容的复杂化使汉语的句子结构变复杂了,那么,由于依存距离与人类认知密切相关,是否意味着从古到今,讲汉语的人的认知压力一直在增加呢?然而,为什么人们没有感觉到这种压力?难道是人的认知机制也随着语言的变化发生了适应性改变吗?我们正在对这个语言与认知共演的国际前沿课题进行研究。
目前,我们的部分研究成果已经达到国际领先或先进水平。这些成果拉近了语言学同其他科学领域的距离,缩小了汉语(计量)语言学同国际学术研究之间的差距,提高了中国语言学在国际上的声望与话语权。
计量语言学是语言学领域具有典型的数字人文特征的分支学科。随着海量数据在传统艺术与人文领域的广泛应用,数字人文作为一种新的方法论正流行开来。这也使得这些传统学科不得不开始思考,如何利用数据来解决过去难以解决或解决得不够好的问题,从而更合理地解释数据展现出来的有关人类认知、行为的模式,探求人与社会、自然交互的规律。
(作者系国家社科基金重大项目“现代汉语计量语言学研究”课题组成员,黄伟系北京语言大学副研究员、梁君英系浙江大学教授)