在《三国演义》里面,刘备在介绍自己或者被别人介绍的时候,有一句话出现得很频繁,“中山靖王刘胜之后,孝景皇帝阁下玄孙”。
至于刘备的身世,《三国志》是严肃史书,作者陈寿虽然也掺有了个人情感在里面,但对于史实是认真的。比如曹操的出身,对曹操父亲曹嵩的说法是“莫能审其本末”,也就是出身不明;孙坚家族也算是大家族,对于这个家族的来源,陈寿写的是“孙坚字文台,吴郡富春人,盖孙武之后也”,“盖”就是大概的意思,陈寿也不能确定。
对于刘备,陈寿写的是“先主姓刘,讳备,字玄德,涿郡涿县人,汉景帝子中山靖王胜之后也。胜子贞,元狩六年封涿县陆城亭侯,坐酎金失侯,因家焉。先主祖雄,父弘,世仕州郡。”,写的非常确定,而且整部书都不怀疑这个事。
刘表刘璋在内的皇室宗亲,曹操孙权在内的生死敌人,都没拿刘备身世做过文章和贬低过刘备。同时刘备还是卢植的学生,没有点家财背景也请不起这样的老师。
但因为刘雄与刘贞隔得太远了,也没明确家谱记录。刘备到底是不是刘胜的后代,可能永远也不能形成定论。
刘备的谜团早已淹没在历史的尘埃里。幸运的是,两千年后的今天,现代人可以利用分子基因学的手段来确认自己的父系血脉家族归属,甚至可以穿越历史,找到自己一千年、两千年甚至三千年前的祖先。
这里要探讨的话题是父系单倍群Y141213的始祖就是中山靖王刘胜,以及由此引出的汉宫重帷下的一个秘事:刘胜非汉景帝刘启亲生儿子。
限于篇幅,这里不对基础的分子基因学基础原理、高通测序芯片测序等测序方法、Y树构建方法、ISOGG命名规则、单倍群共祖时间估算、综合进化论、人类起源等展开讨论,感兴趣的话可以点此查看。
本章节内容仅涉及一些基础的分析方法,可直接跳到下一章,不影响阅读。
Y染色体上绝大部分区域不与X染色体重组,被称之为男性特异区(MSY区)。
男性特异区除了雄性开关基因SRY以外,几乎不实现生理功能,对人的性状影响很微小。因此Y染色体在进化上是中立的,不受常规的自然选择的影响。又因常染上的遗传优势很容易通过女性后代传播出去,Y染与常染色体上的优势基因也没有绑定关系。
正因为Y染这种进化中立特性,Y染的扩张仅与随机现象和人的社会属性有关。
遗传漂变是指当一个族群中的生物个体的数量较少时,下一代的个体容易因为有的个体没有产生后代,或是有的等位基因没有传给后代,而和上一代有不同的等位基因频率。一个等位基因可能(在经过一个以上的世代后)因此在这个族群中消失,或固定成为唯一的等位基因。这种现象就叫“遗传漂变”。
我们可以用一个数学模型来说明。在基因遗传学里边有个Wright—Fisher模型,这个模型最简单一种是说假设我们最开始有2N个基因也可以说2N个祖先,每个祖先是否有下一代后裔完全是每次随机选择,而且每代的人口数量都为2N假设不变。
假设t代有个祖先i,在t+1代他(她)有k个后裔的概率为:
很显然是个伯努利实验。当2N比较大时候这个概率近似Po(1)的柏松分布:
任意1个人在一代之后没有后代的概率是多少呢?
也就是37%的人一代之后就没有后代了,而一代之后有后代的祖先比例是1-37%=63%。
假设我们在15代之前有1万个祖先,这1万个祖先在15代之后还剩多少人有后代呢?
也就是说按照这个最简单的模型,仅仅有10个人的基因可以传到15代之后,而15代后的1万人仅仅也只有10个共同祖先。而大多数祖先的基因(10000-10=9990)已经消失在了历史的长河中,在今天已经没有了后代。
奠基者效应乃指一族群最初只由少数个体由他处播迁至某地而建立,经一段时间之繁衍,虽个体数增加,但整个族群遗传多样性却未有提高。
因此Y树上一万年以前的树形几乎全是二叉树,仅有超级幸运儿能依靠这种随机过程留下后代到今天。
农业革命以来,由于生产力的提高与文明的繁荣,少数人可以占据极大的生存资源。且随着阶级与宗族的出现,生存优势得以沿着父系传播。这就造成了Y染全新的扩张模式。
Y单倍群共祖时间,按照YFull上公布的计算方法:找出位于YFull估龄区间上且测序质量达标的SNP的个数,并根据覆盖率校正。然后按照 60 + 144.41 * SNP数 计算共祖时间。也即YFull估龄区间上平均每5~6代人产生一个SNP。
Y估龄区间上的突变是一种典型的泊松过程,估龄计算、估龄区间计算就是泊松分布的最大似然估计和区间估计。上述计算方法简单有效,但方差极大,各机构包括YFull自己都不会简单使用该公式。
可以使用更长的估龄区间和对应的更大平均突变数来减少方差。比如英莱盾就宣称自己可以测试到每2~3代人之间发生的突变,相当于每70年左右发生的突变。
如果一个单倍群下有多个一级分支,可有效缩短估龄的置信区间。
以一个共祖2300年估龄的分支举例,假设每个下游分支只测到一个样本,且仅选取YFULL估龄区间上的突变计算。2叉时,其估龄95%置信区间为1540~3200年。18叉时,可缩短到2030~2570年。
某个下游分支如果有多个样本,可缩短其估龄区间,进而缩短总的估龄区间。
为了准确性,不宜把精确到100年以内的估龄作为分析问题的直接证据。对于一级分支少的单倍群,比如常见的二叉,年龄估算的浮动范围还要扩大。
Y树上近一万年,尤其是进入历史时期以后,开始出现一分多的“簇”。
比如这支F2064(F1759),测试10个样本就分了8支,下游PH4822,仅一个SNP继续分化,又分了3支。增加样本数肯定还会测出很多新分支出来。F2064、PH4822这种树形就叫"簇"。
簇的出现,与宗族人口快速扩张有关。Y树是根据现代人测序绘制的,也就是说,簇上每个分支,都代表着一个留下直系后代到现代的人。
如章节1中介绍,绝大部分人无法留下直系后代。留下一支、两支可以靠运气,留下三支及以上后代,就不可能是单纯的运气因素了。簇的形成有如下两个条件:
如果父子间没有产生突变的话,Y上是区分不出来的。所以始祖,及始祖未发生突变的直系后代,繁衍出的子嗣在Y树上表现为并列的分支,这些并列的分支形成一个簇。
一般4~6代人后就没有未发生突变的直系后代了,不会持续很多代。
如果这种快速扩张持续,会出现簇下接簇的现象。比如F317:
因为每一个分支都是通过现代人测到的,没能传下后代的子孙生的再多也没用。因此簇下每个分支的始祖也必须扩张出足够多的后代,才有可能穿越历史的长河,流传后代到今天。
复旦大学历史研究所陈熙《延续香火的理想与普遍绝嗣的现实——基于家谱的人口数据》统计了清代福建西北山区松源魏氏家族的香火,其族谱记载详细,修订次数多,地形属于盆地,受外界影响小。统计的结果,才几代而已,就有十分之九的初代断了后。
在清朝267年的时间里,松源魏氏出现了以下情况:
清初,松源魏氏共计169名男丁。
第一代繁衍时,淘汰了43.8%的支脉,即只有95人留下了后代,其余74人断后。
至第二代,则累计淘汰了62.13%的支脉,起初的169人中,已有105人断后,有64人还有后代。
到第三代,淘汰了71.60%的支脉。此时,松源魏氏的绝大多数支脉(121人)已经断后,只有48人有后代。才第三代,就已经出现了这种情况。然而整个松源魏氏的人口是不断增长的,最终是有1360名男丁。由此可知,历经数代淘汰之后留存下来的支脉,更容易留下后代。到1917年,初期的169个支脉中,有86.39%断后。即,清初这个村镇的169个男丁当中,到民国初期,只有23人还有后,其余146人均绝了嗣。
这个村庄最终有1360名男性,人口增长了8倍。村中大片居民拥有共同的五世祖,证明当年同时代的本族人是断后的。历史上完全不缺导致“十室九空”的战乱和灾荒,清代是中国人口增长最稳健的时代,血脉传承尚且如此,就不难想象其他时代的情况了,说留存率万分之一绝不为过。
簇形成的条件,要求宗族的生存优势至少可以持续一两百年,而且分摊到不同后代后,仍能给每个后代带来足够大的帮助。
单纯只有主家有生存优势,无法给分家多大帮助的宗族,难以形成簇。
簇的大小,与从宗族始祖开始一两百年内人口扩张速度成正比。短时间内扩张越快,留下的分支数越多。
很明显,F4249的扩张力不如FGC23868。
动乱少、相对封闭的地区。利益格局不易打破,宗族的生存优势往往可以长时间延续,相比动乱多,生存优势容易丢失地区的家族,更容易传下后代。
越晚近的家族,其传下后代到今天的难度越低。
这两种情况,同样大小簇代表的人口扩张速度相对更小。
大乱之后天下初定,如果后面紧接着有较长的和平时期,此时最容易产生簇。因为战乱导致人口大规模下降,为留存下来的人留下巨大的生存空间,可以短期快速扩张。较长的和平时期容易导致利益格局固化,有优势的家族可以持续扩张。
可以利用簇开始的时间,及簇的大小,来判断一个宗族人口扩张期,及扩张速度。比如F15546分支:
共祖时间是2100年前,即西汉时期。但西汉时期仅有小规模人口扩张,只留下了一个准3叉。人口扩张主要发生在1760年前的ACT505分支和1350年前的ACT502分支。
分析家族起源地,最理想的方法是分析家族簇下游分支的多样性。多样性越高的地区,越接近起源中心。
因为家族的生存优势,大部分只能在家族所在地周边体现。远道迁入其他地区,抢占其本地人群生存空间,困难重重。因此大部分家族扩散初期人口集中于一地。后面再往其他地方迁徙,迁徙目的地的分支数不可能高于起源地。
除非迁徙目的地集中,且在迁徙后起源地人口几乎灭绝才有可能误判。但从大规模父系家族统计来看,至少历史时期以来不存在这种情况。即使张献忠屠川这种规模的人口下降,今日四川仍保有大量本地特色父系。
这个方法不适用于分封制下的皇室成员。皇室不同子孙可以分封到全国各地,并分别扩散。没有明显中心。
但是这种方法现在只能适用于共祖在三、四千年以前的单倍群和发现早且非常大的晚近单倍群。主要是因为现在测试过高通的人数还不够多,许多家族簇下一个分支仅测出一人,无法知道分支SNP,且还有大量分支未发现。
适合大规模测序的芯片测序,还没加入这些下游分支。因此现在大部分秦汉以后的家族还无法分开统计下游各分支分布情况。共祖在三、四千年以前的单倍群早几年就有发现,下游分支也早已发现不少,可以分开统计。且这些单倍群总体分布受晚近大簇干扰严重,必须按分支多样性判断起源。
秦汉以后的父系单倍群分布,大部分呈现出单一中心,向周边地区逐渐递减的特征。有传播到较远地区的单倍群,也都符合历史记载。比如湖广填四川、闯关东。而且较远地区人口占比没有中心处高。
这里判断这些高频中心地为起源地区。
扩散中心区域,在宗族快速扩张期过了以后。如果位于人口流动性小的地区,由于遗传漂变和宗族互助等因素,其人口占比逐渐提高、持平、缓慢下滑均有可能。如果位于人口流动性大的地区,其人口占比肯定会逐渐下降。周边地区,随着时间推移,人口流动,占比会逐渐上升,向中心区域趋近。
为减少争议,对没有下游单倍群统计,以及“高频中心四周扩散”特征不明显的家族,避免使用起源地作为分析问题的直接证据。
本章节讲的起源地是指一个家族在获得巨大生存优势时的地点。宗族始祖从哪里来的,要根据上游单倍群分析。
对于大规模人口迁徙的情况,还可以参考常染上的相似性。
中国子女一般会随父姓,然而由于过继、抱养、老王、避祸、孤儿、赐姓、入赘等情况,姓氏的传承并非一成不变,对于比较久远的家族,仍然保持本来姓氏的比例就更低了。
根据已有的数据统计,距今2300年以上单倍群往往姓氏杂乱无章,没有超过10%的姓氏,这个时期姓氏的构成往往与地域有关。共祖到先秦时代单倍群的姓氏分布规律,可参考这篇说明。
距今2300—1800年左右的单倍群,首位姓氏占比20%左右,这个姓氏可能就是秦汉时期那位祖先的姓氏;距今1800—1000年左右的单倍群,首位姓氏占比30%-35%左右;距今1000-500年以内的单倍群,首位姓氏占比50%左右;距今500年以内的单倍群,首位姓氏占比50%-75%左右。
实际应用时,需要首位姓氏占单倍群比例符合一般规律,并且随机选择首位姓氏个体测序,共祖到的单倍群,才能判定为该姓氏。更早的单倍群无法确认。
比如Y137940,随机选择其下游沈姓测序,全部共祖在Y137943下游。所以只能认定Y137943是沈氏,Y137940未知。同时随机选择属于Y137940下游的史姓个体,全部共祖在MF21337。这说明在1000年前的MF21337家族始祖已经改姓为史姓,并实现了家族扩张。Y137940下游史姓再多,不会影响到对Y137943是沈姓的判断。
家谱与父系单倍群都是父系传承,但是还是有很大不同。
父系单倍群是真正血缘上的父系传承,且不会出现错漏,不受人为因素干扰。
父系单倍群精度上不如家谱。比如父子间有可能没有突变,Y树上看不出差异。
家谱是宗法制下的产物,抱养、过继、老王等现象导致并非所有人都是家族始祖直系后代。但是一个几百年之内的家谱家族,绝大部分人还是始祖的直系血缘后代。
家谱是人为记录的,存在错漏现象。外迁的宗族往往无法准确找出在家谱位置。
从大规模父系家族统计来看,绝大部分家谱对明朝以前的记载不正确。但父系单倍群可以一直追溯到任何文字记载之前。
这是因为中国的家谱大多修成于明朝初年以后。因为没有对祖先的记忆,当时修谱匠为了满足“客户需求”,把许多不同宗的同姓家谱连到一起,并把历史上早期各种同姓名人串联起来。看似记载清晰,实则乱认了祖宗。
地方志也没法直接拿来做证据。许多地方志内容是根据家谱记载编写的,拿来做证明就变成循环论证了。需要具体分析。
另外如章节4中讨论,80%的人秦汉以后改过姓。即使1000年前的祖先,与自己同姓的概率也只有50%。对大部分人来讲,早期的祖先与自己根本不是一个姓。
综上,单个人的测试结果,不能直接用作一个家族的结果,需要多人测试验证,最好有高通测序确认共祖情况。一个家族的结果,不能直接根据家谱记载确认早期人物的单倍群。需要具体问题具体分析。
通过章节2~5讨论的方法得出单倍群特征后,可与历史记载、家谱、地方志信息对照,尝试寻找其始祖是谁。
另本文中讨论的家族都是血缘家族,与宗法制家族不一样。
确实古DNA结果是一种直观的、直接的、容易理解的证据。而且确定性很强,如果直接测到家族始祖就100%确认了。测到有记载的后代,只要排除老王情况也能完全确认。
许多出身不明,子嗣不多的历史人物,恐怕只能直接测到古DNA才能确认其单倍群。
但不能因此就只认古DNA一种证据。许多父系单倍群存在很明显的统计学上的特征。比如分化时间、分化地点、分化速度、始祖姓氏。
如果特征真的非常明显,而且多个证据互相验证,一样可以确认其始祖是哪个历史人物。