大数据算出汉族第一个故乡——复旦汉藏语系研究通俗版

原创: 穆好古  马前卒工作室  昨天

最近复旦大学在《自然》杂志上发表了一篇著名论文,名为《语言谱系证据支持汉藏语系在新石器时代晚期起源于中国北方》(下简称“起源文”),由复旦大学张梦翰,严实,潘云悟,金力联合署名。

这一研究结论和大多数中国人相关,又是国内第一篇在《自然》上发表的语言学论文,一发表就成为各家媒体的报导热点。

但绝大多数报道只简单介绍了结论:

“汉藏语系起源于大约4000~6000年前中国北方的黄河流域”

对具体的研究过程、研究方法,专业名词定义均无阐述,以至于大多数读者无法了解此文的重要性。马前卒工作室因此编纂了说明,帮助大家理解这篇必然会成为历史课本一部分的论文。

国内媒体报道介绍作者顺序时,与《自然》署名顺序完全相反,总是先介绍已经成名的复旦大学副校长金力,然后是复旦大学语言所所长潘悟云,最后才是张梦翰、严实。

笔者作为分子人类学爱好者,知道金力教授是国内遗传学权威,严实博士更是分子人类学者领域网红学者,为什么他们会突然跨界到语言学发论文?

这就要首先解释“起源文”研究的主体:汉藏语系。

1

汉藏语系是什么?

汉藏语系是法国语言学家让·普鲁祖斯基在1924年提出的概念,是世界十个“语言系属”之一,到三十年代被国内学者普遍接受。但直至今日,这一概念在基本定义方面还存在很大争议。

在官方定义中,汉藏语系包括四个语族,即汉语、侗台语、苗瑶语、藏缅语,但现在包括”起源文”在内的学术论文,大多认为侗台语与苗瑶语属于“泰澳语系”而非汉藏语系。

而”起源文”作者之一的潘悟云则进一步提出,南岛语(台湾-太平洋)、汉藏语、南亚语应该归为一个大语系,称华澳语系。

就内涵而言,汉藏语系为什么能被称为统一的语系?在汉藏语系内部各语族之间,各个语族语族关系如何?是由同一古语分化出来?还是古语在不同时代“固化”的产物?谁先出现?谁后出现?这些问题现在尚无定论。甚至最核心的问题——“为什么汉语与藏语是同一语系”——都有多种论证方式。

这些混乱的原因首先是汉藏语系与印欧语系不同,并没有若干平行发展的大语族,而最大分支的汉语又是表意文字,追溯语音很困难。

此外,作为研究工具的语言分类学本身不过100年历史,属于经验总结式的社会科学,缺乏量化分析。所以,在语言学和汉藏语系的话题上,国内研究多年来一直处于低水平重复状态,根本不敢想象被《自然》杂志看中。

有这么多同行、同领域研究衬托,本次金力团队打进《自然》杂志,最主要的原因并不是媒体集中报导的“新发现”,而是因为他们在语言学和历史学中引入了新方法,用科学、量化的工具分析了汉藏语系,甚至可以说他们第一次给汉藏语系赋予了数学定义。

通过对109种汉藏语系语言的近千个词汇词根-语义组合进行谱系建模分析,重构了汉藏语系诸语言间的亲缘关系

为什么量化研究方式能找到汉藏语系的起源地呢?这种新模式又要从金力、严实二人负责的分子人类学领域说起。

2

分子人类学与汉藏语系

“起源文”在做出语言学结论之前,已经承认了一个大前提:基于分子人类的“汉藏民族南来说”。

对人类父系基因Y染色体的分析证明,一万两千年前,地质学上所谓末次冰期最盛期过后,汉藏民族的共同元祖:“古羌人”(分子人类学中单倍体O),穿过今天缅甸与云南之间广袤的湿润草原,进入云贵高原与青藏高原交接处,之后随着地球温度回暖,这一族群沿着横断山脉而不断北上,直至黄河流域。

这群人的规模最初只有几千人,北上过程中不断繁衍扩大,其中一支往西形成了后来的藏缅民族,另一支往东进入中原地区成为汉族主体,这个总趋势现在基本可以确认。

但是,无论在分子人类学层面,还是语言学层面,“汉藏民族南来说”都有一个尚未解答的疑问:汉族与藏缅民族到底在何时,何地分离。

分子人类学的研究基础是现代Y染色体的不同单倍体分布,反推历史渊源,相对准确。但从汉缅藏分化到今天,中间经历了很多次再迁徙,扰乱了研究数据。

而相对分子人类学,语言的变迁时间更短,更好追溯,所以语言学和分子人类学相结合,在最近几十年形成了”起源文”中提到的两个观点:“南分化说”和“北方分化说”。

南方分化说

南方分化说认为,汉藏两族的祖先“古羌人”刚刚进入横断山脉,就沿着不同支脉分别往北、往西,分别繁衍为汉族与藏族。南方分化说还认为缅语可能是直接从古羌语里分化而来与现代汉语关系很小。

南方分化说的主要依据是汉藏语系的支系分布。一百多种汉藏语言,90%的支系分布在高黎贡山和喜马拉雅山构成的L形地区,似乎证明这些支系和汉语分歧很早,之后又经历了多次再分化。

然而,分子人类学对东南亚民族迁移路径进行深入分析,认为现代缅甸语系民族在3500年前进入缅甸,而且是在获得了青铜技术后,依靠金属工具,从云南穿过茂密的热带雨林,自北向南回迁到东南亚。所以南向说在分子人类学上已经遇到了难题。

北方分化说

北方分化说认为,古羌人作为一个规模很小(几千人),只能使用木石工具的部落,不能像后来的汉族那样,用金属工具开拓领地,只能沿着横断山脉不断向北,一直走到横断山脉最北边,以天水为中心的陇中平原,才从山腰进入平地生活。

在这个过程中,古羌人开始种植适合当地环境的“粟”。粟米支持了发达农业社会,进而促成现代汉族五个“超级祖先”相继出现。这一阶段的古羌人很可能还遇到了6000年前黄河上游那场特大洪水,之后东西分离,分别成为藏族与汉族。

北方分化说在考古学上有较多证据,仰韶文化与马家窑文化,以及中国最早的青铜文化(齐家文化)都处于这一区域,可能和汉藏民族分家后的初期爆发性发展有关。

仰韶文化与马家窑文化分布地区

3

语言学的计量分析

”起源文”宣称自己在两个历史叙事中找到了正确答案,他们用了什么方法?

这就是”起源文”第一作者张梦翰所使用的“语言学计量统计”:

这套方法首先选取某种语言的若干核心词语,作为测试点位,再通过声音识别软件对这些点位做读音波形分析。最后,还要引入3D扫描技术,对发音过程中人类发音器官的细节进行动态分析,在语言中提取定量指标。

在大量统计的基础上,张梦翰用SPSS等大数据统计软件处理数据,对不同语言做交叉对比,得出类似分子人类学的语族关系树,定量计算当代语言之间的亲疏关系。

波形分析

不过由于”起源文”篇幅所限,没有对论证过程做太多叙述,直接给了结论。为了让读者对这种方法有更直观的认识,笔者在这里推荐阅读张梦翰《壮语分区的特征选取和权重量化》(后面简称《壮》文)与《闽南方言传播模式的计量分析》(后简称《闽》文)。两篇论文也通过对语言的计量分析确定了语言发展史:

他们研究壮语和闽语时,首先在前人研究基础上,选择各自方言中一些差异明显的语言特征作为点位,并将传统的方言片进行编码:

定出以上统计标准后,通过技术手段,可以统计出不同方言中十九个特征的相互差异,并定量记录,从而得出各方言支间的相互关系:

最后定量数据和地理信息结合,可以将语言传播趋势表现在地图上:

有了地图,再结合历史事件,张梦翰得出结论:闽南语发源地在泉州,而海南地区的闽南语则是从文昌向全岛传播。

结论

虽然《自然》发表的”起源文”并没有汉藏语系的语言学定量分析,但从文中图表看,作者显然使用了前面介绍的计量统计方式,做出下面的地图和结论:

汉藏语系发源地推测

A. 古羌人的语言在10000年前形成于横断山脉中部。

汉藏缅三大语族分离时间

B. 汉藏语系分家时间是6000年前,位置在横断山脉最北部,黄河上游地区。之后藏缅语族在4500年前分家。

在现代数学方法和计算机技术的支持下,汉族第一次知道自己的“故乡”在何处,至少知道第一个说汉语的部落在何处谋生。

”起源文”做出了完整的语系树,因此结论不仅仅适用于汉语和藏语,但是,”起源文”也承认,由于古羌语形成时间过早。

汉藏语系分化后,各民族之间又经历了几千年的迁移与融合,所以汉藏语系下各种小语族之间的关系不一定准确,也不一定适合仅靠语言学进行树状分析。统计中也未比较汉藏语系与侗台语、苗瑶语、南岛语等可能相关的语言。

但是,无论研究有多少瑕疵,”起源文”提供的研究方法非常重要!数学工具跨越语言学、人类学、考古学等专业,提供了可靠的定量模型,可以说是第一次把这些学科变成真正的“科学”。随着类似方法和计算机应用的推广,相信语言学研究会得出更准确,更惊人的历史结论。

Leave a Reply

邮箱地址不会被公开。 必填项已用*标注