摘要
在法医科学中,人类遗传身份鉴定通常通过核DNA STR 分型实现。然而,法医样本中DNA的数量稀少且质量低下,可能会影响通过STR分型生成确凿DNA谱的能力。在这种情况下,线粒体DNA(mtDNA)可以作为法医身份鉴定的替代解决方案。线粒体DNA的关键特性包括高拷贝数、小型环状DNA结构、高突变率、母系遗传以及无重组,这些特性在法医学中具有重要意义。本研究综述了mtDNA的特性、法医学应用、测序方法,并列举了一些相关的法医学文献实例。
关键词
mtDNA;NGS;NUMTs;异质性;身份鉴定;法医生物学
引言
自杰弗里斯(Jeffreys et al.,1985a)通过研究人类DNA的高变区开发DNA指纹技术以来,人类身份鉴定领域取得了巨大进步。DNA分型的出现提供了宝贵的遗传信息,并能进行人类身份鉴定(Jeffreys et al.,1985b)。这一技术的法医学应用涵盖了从大规模灾难中受害者的身份鉴定(Montelius & Lindblom,2012)到亲属关系和失踪人员的身份确认(Zietkiewicz et al.,2012)等多个领域。
尽管核短串联重复序列(STR)是人类DNA分型的金标准,但在某些情况下,STR可能无法生成完整或具有信息性的DNA谱(Cavalcanti et al.,2015)。由于尸体在死亡后会经历降解过程,通常可获得的样本是骨骼、牙齿或毛发,并且往往来自水环境、埋葬地或烧毁的场所,这导致核DNA分型样本的数量少且质量不足(Alvarez-Cubero et al.,2012)。已知遗传物质通常因较长的死亡时间和环境条件(如高温、高湿、酸性pH值、土壤成分、微生物活性及紫外线照射)而呈现高度降解(Latham & Miller,2018;Alaeddini et al.,2010)。
在这些情况下,线粒体DNA(mtDNA)可以被视为核基因组DNA身份鉴定的替代方案(Cavalcanti et al.,2017)。线粒体DNA被证明是人类身份鉴定的宝贵资源(Holland & Huffine,2001)。其高拷贝数、保护性的环状小分子结构、高突变率以及无重组的非孟德尔式母系遗传是mtDNA在法医学中应用的关键特性(Melton,2014;dos Reis et al.,2019)。
法医遗传学中的线粒体DNA:历史视角
线粒体DNA(mtDNA)首次被用于人类身份鉴定的研究发表于Stoneking等人(1991年)。该研究中,使用23个特异性寡核苷酸探针(SSO),靶向mtDNA控制区的高变区HVI和HVII,对1986年发现的一名儿童遗骸进行了测序分析。结果显示,被检样本与母亲的参考样本之间没有差异,从而得出结论:这些遗骸属于失踪儿童。
Sullivan等人(1992年)发表了一项研究,旨在鉴定一具高度腐烂的女性遗体。他们使用Sanger测序技术测定了骨碎片和坏死皮肤样本中HVI和HVII的mtDNA序列。这些降解DNA样本的mtDNA序列与一位假定的姐姐的血液样本完全匹配,确认了亲属关系。被检样本和假定姐姐的参考样本之间没有发现差异,得出结论:二者是姐妹关系。
1994年,Gill等人发表了一项涉及mtDNA测序的人类身份鉴定的著名研究。他们对在俄罗斯叶卡捷琳堡的一座墓穴中发现的九具骸骨进行了mtDNA分析,这些骸骨被初步认为是末代沙皇尼古拉二世、沙皇皇后、五个孩子中的三个、皇室医生以及三名仆人的遗骸。HVI和HVII的Sanger测序证明了墓地中存在一个家族群体。假定的沙皇皇后与她的三个孩子与一位在世母系亲属的序列完全一致,而假定的沙皇的mtDNA呈现异质性,与两位在世母系亲属相符,从而确认了这些遗骸属于罗曼诺夫家族,利用法医科学解决了这一历史谜团。
Boles等人(1995年)发表了一项研究,通过测定HVI区的mtDNA序列,鉴定了12颗人类牙齿遗骸。样本来自1992年从两座埋葬疑似在1982年被危地马拉独裁政权杀害的村民的大型墓穴中挖掘出的遗骸。mtDNA的Sanger测序帮助识别了大多数人类遗骸,确认这些是大屠杀中失踪的受害者。
1996年,Paul William Ware因在美国田纳西州强奸和谋杀一名四岁儿童而被定罪,这是mtDNA分析首次被用于法庭案件(Melton,2009)。尸检中,在受害者喉部发现的一根头发的mtDNA序列与被告一致。
Corach等人(1997年)发表了一项研究,描述了他们鉴定阿根廷独裁统治受害者的大型墓穴中发现的340具骸骨的工作。通过对HVI和HVII区域的Sanger测序,成功识别了一名受害者。被检样本和假定母亲的参考样本,没有发现序列差异,确认该样本属于一位在世母亲的儿子。
Deng等人(2005年)研究了2004年东南亚海啸灾难后的法医鉴定,这场灾难在泰国南部造成近5400人死亡,包括外国游客和当地居民。研究人员从严重腐烂的尸体中提取骨骼和牙齿样本的DNA,并结合线粒体和核基因标记进行鉴定。在困难条件下,成功分析并鉴定了51%的样本。该研究显示了mtDNA分析在灾难受害者鉴定中的潜力,并对未来的灾难应对和法医研究具有重要意义。
2012年,在英国莱斯特市的灰衣修道院挖掘出了据称是理查三世国王的遗骸。King等人(2014年)发表了一项研究,旨在确定这些遗骸是否属于理查三世。通过对骨骼遗骸及其在世亲属进行HVI、HVII和HVIII片段的Sanger测序,以及通过ION Torrent PGM和100 SE Illumina Hiseq 2000对整个线粒体基因组测序,结果显示遗骸与一位在世亲属完全匹配,与另一位亲属相比仅有一个碱基的差异,表明这些遗骸属于理查三世国王。
西班牙内战(1936-1939)及其后持续到20世纪70年代的镇压造成超过20万人死亡,许多受害者被不当埋葬且未被识别(Preston,2012)。Baeta等人(2015年)发表了一项研究,旨在为252具遗骸的身份识别提供帮助。通过对HVI和HVII的Sanger测序分析,成功为27%的样本提供了额外的身份信息。
1998年,在瑞典发现了一个维京时代的大型墓穴,内有至少19具个体遗骸。Bus等人(2019年)进行了一项研究,旨在调查这些个体之间是否存在母系亲缘关系。对骨骼和牙齿样本进行了HVI和HVII片段的Sanger测序,并使用Precision ID mtDNA Whole Genome Panel对部分样本进行了全线粒体基因组测序。结果显示墓穴中至少埋葬了20名个体,其中只有两对是亲属关系(兄弟姐妹或母子)。
2022年,Loreille等人利用优化的DNA提取方法,结合NGS Illumina NextSeq 500平台分析了与罗曼诺夫家族遗物相关的无根单根头发。结果显示,这些头发属于一名与沙皇尼古拉二世共享母系血统的女性。通过对之前发布的沙皇尼古拉二世及其皇后亚历山德拉的mtDNA序列的分析,这项研究进一步确认了这些头发的身份。
线粒体DNA的生物学与特性
尽管细胞核被认为是人类基因组的主要集中区域(约32亿碱基对),仍有0.25%的基因组位于核外(Butler,2012)。这些余下的16569个碱基对位于真核细胞细胞质中的细胞器——线粒体内(Goodwin,2016)。Nass和Nass(1963年)首次发现并分离了线粒体DNA;1981年,Frederick Sanger实验室首次完成其全基因组测序,生成了剑桥参考序列(CRS,又称“Anderson序列”),包含16569个碱基对(Anderson等,1981)。1999年,该序列经过重新测序,生成了修订版剑桥参考序列(rCRS),并被公认为是用于比对的标准(Andrews等,1999)。
与每个细胞含有两个核DNA拷贝(分别来自父母双方)不同,线粒体DNA每个细胞可有数百到数千个拷贝,其数量因生物组织不同而异(Chapman等,2020)。
线粒体DNA为核外基因组,其结构为环状,包含37个紧密排列的基因,这些基因编码对氧化磷酸化过程所需的产物,该过程负责细胞的能量生产(Nicholls & Gustafsson,2018)。其中13个基因编码蛋白质,2个编码核糖体RNA(rRNA),22个编码转运RNA(tRNA)(Asin-Cayuela & Gustafsson,2007)。
线粒体基因紧密排列在编码区域中,没有内含子,仅有55个核苷酸未被用于rRNA、tRNA和蛋白质的转录(Butler,2012)。其余的1122个碱基对构成了控制区,这是线粒体DNA复制的起始点,因未含任何基因,也被称为非编码区或位移环区(D-loop区)(Taanman,1999;Samehsalari & Reddy,2018)。
有趣的是,在线粒体基因组的互补链之间存在核苷酸分布的偏倚,产生了一条富含腺嘌呤和胸腺嘧啶的“轻链”,以及另一条富含鸟嘌呤和胞嘧啶的“重链”(Druzhyna et al.,2008;Yasukawa & Kang,2018)。
自从内共生过程—地球生命进化的重要一步—发生以来,一种较大的原核细胞吞噬了一种较小的α-变形细菌,后者存活并形成了线粒体和叶绿体(Baum & Baum,2014)。这一事件建立了与宿主的互利关系,遗传物质转移到宿主的细胞核中,从而形成了完整的核和细胞器的复杂真核细胞(Archibald,2015)。这一过程标志着从简单原核细胞向当今多样的真核生物群体的重大转变。
在进化过程中,大部分细菌祖先基因组丢失或转移至细胞核,形成了高度压缩的线粒体DNA(Gustafsson et al.,2016)。值得注意的是,线粒体DNA的存在和表达与线粒体功能性呼吸链的存在之间具有很强的相关性(Stewart & Larsson,2014)。在线粒体基因组的37个基因中,有13个编码与氧化磷酸化相关的多肽。除完全由核DNA编码的复合体II外,其他复合体都具有核基因和线粒体基因的遗传起源(Nicholls & Gustafsson,2018)。
线粒体DNA以无重组的母系遗传方式传播,也就是说,仅由母亲传递,遵循非孟德尔遗传模式(Bermisheva et al.,2003;Amorim et al.,2019)。这种遗传模式由两个主要过程决定:(1)线粒体DNA在精子发生过程中拷贝数的强负调控(即下调);(2)受精后通过泛素化和蛋白水解机制主动降解精子的线粒体(Sutovsky et al.,2000;Gustafsson et al.,2016)。
这种遗传模式在法医学中非常有用,例如在失踪人员、大规模灾难和恐怖袭击受害者的身份鉴定中,母系亲属可以提供参考样本以与疑问样本进行直接比较(Cavalcanti et al.,2017)。此外,由于无重组性,即使是远亲母系亲属也可以成为潜在的参考样本来源,这在没有其他参考样本时特别有用。这种情况在灾难受害者身份鉴定和失踪人员案件中很常见(Budowle et al.,2003)。这些特点使线粒体DNA不同于常染色体遗传标记,同时也解释了为什么线粒体DNA的区分能力低于核DNA标记。
尽管如此,尽管有大量相反证据,少数研究仍提出线粒体DNA存在父系遗传和重组的可能性。例如,Hagelberg等人(1999年)在瓦努阿图群岛的一个孤立人群中发现了三个不相关人类mtDNA谱系中存在的罕见变体,并假设这是父系泄漏和重组的证据。然而,随后该研究被撤回,并被证实是假对齐错误导致的假设(Hagelberg et al.,2000)。另一项由Luo等人(2018年)主导的研究基于三个家庭中高异质性提出了双亲mtDNA遗传的假说。然而,由于方法学不一致和错误推论,该研究受到强烈批评。其发现更可能是多拷贝全核线粒体基因组插入(Mega-NUMTs)共扩增污染的结果(Marshall & Parson,2021)。
与核DNA不同,线粒体基因组不与组蛋白结合,这引发了这样一种假设:与核DNA相比,线粒体DNA的高突变率可能是由于缺乏组蛋白的保护作用(Brown et al.,1979)。然而,这一假设未得到任何证据支持(Alexeyev et al.,2013)。实际上,类似于细菌基因组,线粒体DNA包装在一种称为核粒的核蛋白复合物中(Falkenberg & Gustafsson,2020)。核粒的主要结构蛋白成分是线粒体转录因子A(TFAM),其保护作用与组蛋白一样有效(Guliaeva et al.,2006;Gustafsson et al.,2016)。
与核DNA相比,线粒体DNA的进化速率相当高,大约高出10到20倍(Brown et al.,1982;Neckelmann et al.,1987)。这一差异归因于线粒体DNA的突变率比核DNA高出100到1000倍,以及突变固定速率(Wallace & Chalkia,2013)。在某段时间内,线粒体DNA的高突变率被认为是由线粒体在细胞呼吸过程中产生的活性氧(ROS)引起的氧化应激以及缺乏修复机制所致(Brown et al.,1979)。然而,尽管ROS确实会造成某些损伤,大多数突变是由DNA聚合酶γ的复制错误引起的(Zheng et al.,2006)。
另一方面,线粒体DNA拥有包括碱基切除修复(BER)、错配修复(MMR)、同源重组(HR)和非同源末端连接(NHEJ)在内的修复机制(Akbari et al.,2008;de Souza-Pinto et al.,2009;Bacman et al.,2009;García-Lepe & Bermúdez-Cruz,2019)。此外,线粒体DNA还能对损伤做出响应,通过降解受损DNA来消除这些损伤,这得益于其基因组的冗余性,每个细胞中有数百到数千个拷贝(García-Lepe & Bermúdez-Cruz,2019)。
当线粒体DNA的控制机制失效并产生突变时,就会形成异质性基因组混合物(Wallace & Chalkia,2013)。这些异质性突变在细胞分裂过程中可以分离,因为线粒体DNA的复制独立于细胞周期,从而在突变线粒体基因组中产生马赛克分布(Clayton,1982;Nissanka & Moraes,2020)。这种马赛克现象在临床上具有重要意义,因为某些器官或组织可能会随机受到生理变化的影响,同时在法医学中也具有重要意义,因为不同器官或组织中的样本可能显示出异质性(Falkenberg et al.,2007)。
此外,需要强调的是,尽管体细胞组织中的线粒体DNA可能含有高水平的突变(Larsson,2010),但要实现传递,这些突变除了需要存在于生殖细胞中,还必须克服线粒体基因组中突变传递的母体控制机制,例如卵母细胞发生过程中发生的瓶颈效应(bottleneck effect),在此过程中母体线粒体DNA的少量拷贝存在于前体细胞中(Hauswirth & Laipis,1982;Stewart & Chinnery,2015);母体生殖系中针对突变的纯化选择机制,这些突变可能会导致编码蛋白质或tRNA中氨基酸的改变(Stewart et al.,2008);以及高水平线粒体DNA突变的生殖细胞会导致女性生育能力下降(Ross et al.,2013)。
线粒体DNA变异、单倍型和单倍群
线粒体基因组突变通常会形成变异序列,可分为三大类:有害突变、祖先适应性突变和体细胞突变(Wallace & Chalkia,2013)。
在具有较大临床相关性的线粒体DNA变异类别中,有害突变最为重要(Li et al.,2019)。线粒体DNA的高突变率使得数百种致病性突变在人体群体中出现(Wallace et al.,2013)。例如,G11778A、G3460A和T14484C突变与Leber遗传性视神经病变(LHON)相关(Nissanka & Moraes,2020)。此外,某些疾病如糖尿病和阿尔茨海默病也与线粒体DNA突变相关—分别为A3243G和G5460A(Wallace et al.,2013;Li et al.,2019)。
体细胞突变会随着时间的推移在细胞、器官和组织中累积,逐渐损害线粒体功能,并与衰老相关的过程(如神经退行性疾病、癌症的发生)相关,还可用于建立衰老时钟(Wallace & Chalkia,2013;Nissanka & Moraes,2020)。
当线粒体DNA突变出现并在群体中传播时,它会形成一个新的单倍型,因为线粒体基因组由单一亲本共同遗传(Yamamoto et al.,2020)。如果该单倍型在某一群体中延续下来,就会形成一个单倍群。通常情况下,线粒体DNA的适应性突变为每种环境提供了进化优势,从而促进了相应单倍群的增长,这些单倍群往往在该地区占主导地位(Wallace et al.,2013)。因此,各大洲和地理区域与特定的单倍群相关联,这对群体研究和法医学具有重要意义(Wallace,2015)。
单倍群分配提供了有关个人母系地理起源的重要信息,可用于协助法医学调查,有可能与全球建立的线粒体DNA数据库(如EMPOP)中的样本进行匹配。EMPOP数据库存储了来自世界各地的数千个经过质量控制的参考样本。此外,它在质量保证方面也很有用,因为对意外变异的观察可能揭示测序或解释错误(Parson et al.,2014)。
异质性
当个体、组织、细胞或线粒体中验证存在多种类型的线粒体DNA时,便被视为发生了异质性(Melton,2004)。可以推测,所有个体在某种程度上都存在异质性,尽管其水平通常低于当前测序技术的检测限(Steighner et al.,1999;Tagliabracci & Turchi,2020)。
异质性的产生源于线粒体DNA的特性组合,例如高突变率、自主复制和高拷贝数(Melton,2004)。尽管体细胞水平上产生的异质性混合突变不会代际遗传,但如果这些突变起源于生殖系,并能克服发育过程中的控制机制(如卵母细胞发生中的瓶颈效应),则可以通过母系传递给子代(Nicholls & Gustafsson,2018)。在这种情况下,会产生两种mtDNA分子,即异质性。
已知异质性有两种类型:由插入/缺失突变(InDels)引起的长度异质性(LHP)和由单核苷酸多态性(SNPs)引起的点异质性(PHP)(Budowle et al.,2003;Bhatti et al.,2017)。
长度异质性通常由于插入或缺失一个或多个核苷酸而发生。容易发生此现象的mtDNA区域包括胞嘧啶延伸区域(C-stretches)形成的同聚物延伸。在修订剑桥参考序列及若干样本中,这些区域在HVI区域的16184至16193位置之间延伸,其中16189位置为一个胸腺嘧啶(T)(Lee et al.,2004)。当16189位置的胸腺嘧啶被胞嘧啶(C)替代时,就会出现包含十个或更多胞嘧啶的同聚物延伸。另一个已知的胞嘧啶延伸区域位于HVII区域的303至315位置,其中310位置为一个胸腺嘧啶(T)(Andrews et al.,1999)。同样,当此胸腺嘧啶被胞嘧啶替代时,会形成一个胞嘧啶的同聚物延伸(Lutz-Bonegel et al.,2004)。此外,HVIII区域514至524位置的AC残基也会因插入一个或多个AC二核苷酸对而产生长度异质性(Bhatti et al.,2017)。在这些情况下,发生称为聚合酶滑移的现象的可能性增加,导致插入或缺失,从而形成长度异质性。在Sanger测序(STS)中,这种现象通常表现为同聚物区域之后的序列质量突然下降(Butler,2012;Lee et al.,2016)。
序列异质性则由单一突变引起,在单个个体、组织、器官或细胞中产生两种mtDNA分子。通过观察mtDNA测序分析中同一位置的两个重叠核苷酸,这种异质性很容易检测(Butler,2012)。
尽管异质性的存在带来了挑战,但它也是法医学案件中mtDNA分析的一种有用且宝贵的元素,因为它可能提供额外的区分能力(van der Gaag et al.,2020;Gallimore et al.,2018;Holland et al.,2011;Just et al.,2015;Melton,2004;Melton et al.,2005)。异质性可以帮助区分母系相关个体,并支持人类遗骸的鉴定。例如,通过对沙皇尼古拉二世及其兄弟Georgij Romanov遗骸的比较,确认了尼古拉二世的人类遗骸,两人在线粒体DNA控制区16169位置共享异质性(Ivanov et al.,1996)。
根据法医案例中mtDNA异质性生成和解释的指南和建议,通常足以克服与异质性相关的问题(Kim et al.,2018;Parson et al.,2014;SWGDAM指南,2019)。如损伤、系统噪声和误差等伪影是不可重复的(Marshall & Parson,2021)。能够区分微小变异与噪声是正确报告异质性的关键,这可以通过设定正确的阈值和选择最适合的测序方法实现。在这方面,大规模平行测序(MPS)可以在1-2%的低阈值下检测和解析异质性,其灵敏度远高于Sanger测序(STS),后者在某些情况下阈值必须设置在20%以上(Gonzalez et al.,2020;Holland et al.,2011;Just et al.,2015;Melton,2004)。
核线粒体插入
核线粒体插入(NUMTs)是指在人类核DNA(nuDNA)中存在的与线粒体DNA(mtDNA)高度同源的DNA片段(Bücking等,2019)。NUMTs来源于mtDNA转位到nuDNA的过程,这一过程尚未完全理解,但被认为是由线粒体插入事件驱动的。这一现象可以通过线粒体内共生进化来解释,即mtDNA片段转移到真核细胞核的过程(Ramos等,2009)。由于这一过程,大多数线粒体基因和许多假基因都存在于核DNA中(1)。多项研究表明,NUMTs遍布人类基因组,尽管大多数是唯一的,但由于重复事件,一些NUMTs以多拷贝形式存在(Mishmar等,2004;Parr等,2006)。人类的NUMT复制率与单核苷酸多态性(SNPs)的替代率非常相似,据估计为2.2 × 10^-9/年/NUMT(Bensasson等,2003)。
Woerner等人(2020)汇编了所有已发现的NUMTs的数据库,共计1090个,长度范围从13到18649 bp不等。一些NUMTs以多拷贝完整线粒体基因组插入的形式存在,这种现象被称为巨型NUMT(mega-NUMT)(Balciuniene & Balciunas,2019)。
尽管在使用长片段扩增方法时,NUMTs通常不会与mtDNA一起被扩增,因为它们的长度通常短于mtDNA序列,但在使用短片段扩增方法时,NUMTs被共同扩增的可能性更高(Chaitanya等,2015)。在法医案件处理中,如果NUMTs与目标mtDNA序列共同扩增,可能会导致混合样本或异质性解释的复杂化,从而增加分析难度。为了解决这一问题,研究人员已经建立了已知NUMTs的数据库,因为这些NUMTs通常位于特定的位置,同时开发了用于识别和过滤它们的生物信息学技术(Duan等,2019;Maude等,2019;Ring等,2018;Santibanez-Koref等,2019;Smart等,2019;Woerner等,2018)。
另一种生成无NUMTs的mtDNA序列的有效方法是简单地稀释DNA(Calvignac等,2011)。
线粒体DNA在法医遗传学中的应用
线粒体DNA在法医学中的主要特点,使其成为一种有趣的工具,包括每个细胞中存在数百个拷贝、高突变率、母系遗传、无重组、环状DNA对降解过程的抗性以及高多态性发生率(Zietkiewicz等,2012;dos Reis等,2019)。
由于线粒体DNA以母系遗传的方式传递且无重组,同时具有较高的突变率,因此它是研究母系谱系的良好候选工具。此外,与环境/地理因素相关的突变聚集使其在地理遗传祖先研究中具有重要意义。然而,扩展线粒体DNA法医应用范围并使其在某些情况下优于其他标记(如核DNA标记)的原因是其丰度和抗降解能力。由于这些特点的组合,线粒体DNA在法医学中的应用包括灾难受害者身份鉴定、失踪人员案件、恐怖袭击受害者身份鉴定、刑事案件以及历史/古代人类遗骸的身份鉴定(Cavalcanti等,2017)。
关于高多态性发生率,由于控制区(CR)不编码细胞功能所需的产物,其对核苷酸变异的限制较少,因此线粒体DNA中的大部分多态性集中在此区域(Tagliabracci & Turchi,2020)。
在线粒体DNA中,控制区包含被称为高变区I(HVI)、高变区II(HVII)和高变区III(HVIII)的区域,这些区域具有很高的核苷酸变异性,是多项法医遗传学研究的目标(Lutz等,2000;Nagai等,2004;Fridman & Gonzales,2009;Melton等,2012;Imad等,2015)。然而,国际法医遗传学协会的最新建议建议至少对整个线粒体DNA控制区进行测序(Parson等,2014)。
尽管控制区具有较高的个体间变异性,但在某些情况下,这种方法未能区分不同的母系谱系(Coble等,2004)。此外,一些定义单倍群的突变位于控制区之外(Van Oven & Kayser,2009)。为克服这一限制,可选择对整个线粒体基因组进行大规模平行测序(MPS),也称为下一代测序(NGS)或第二代测序。
线粒体DNA测序技术及结果解读
自1977年Frederik Sanger提出首个线粒体DNA(mtDNA)测序技术以来,这种被称为Sanger型测序(STS)的方法,经过科学和技术的进步,发展出了自动化、耗时更少、产出更高的第二代和第三代测序技术(Bruijns等,2018)。尽管Sanger测序技术仍被许多法医实验室使用,但自2000年代中期以来,首代的开创性Sanger测序技术逐渐被第二代和第三代测序技术所取代(Bruijns等,2018)。
关于法医分析的工作流程,所有现有的测序技术,无论是基于STS还是基于MPS的,都有类似的总体步骤;包括DNA提取、定量、通过扩增或DNA捕获富集线粒体基因组片段、准备待测的mtDNA目标区域(ROI)、对DNA模板进行测序,并通过特定软件分析生成的数据。最大的区别在于,第二代和第三代测序技术能够在一次自动化机器运行中生成千兆位(GB)的序列信息。
对于mtDNA序列的目标富集,其特点是通过扩增对目标区域(ROI)的千万倍富集,使其远超基因组初始背景,确保这些片段成为大部分测序DNA的一部分(Singh,2022)。此步骤对确保目标ROI的测序深度足够,以便进一步进行可靠的分析至关重要。主要有两种富集方法:即基于PCR的扩增子方法和DNA捕获方法(Mertes等,2011)。
由于实际限制,STS的mtDNA分析通常仅限于线粒体DNA控制区,或至少是其高变区(Melton等,2012)。然而,当mtDNA样本高度降解时,这种扩增策略可能无法正常工作(Cavalcanti等,2017)。因此,开发了小引物套件,并在“mini-midi-mito”方法中使用,旨在允许扩增最小为140bp的mtDNA片段(Berger & Parson,2009)。在此方法中,通过两次多重PCR生成一系列重叠的扩增子,以覆盖整个控制区,克服了先前描述的问题(Cavalcanti等,2017)。这种小引物方法的适用性在MPS技术中得到了扩展,商业化的NGS试剂盒,如Promega的PowerSeq® CRM Nested System、Thermo Fisher的Precision ID mtDNA Control Region Panel或Verogen的ForenSeq™ mtDNA Control Region Solution,使许多法医实验室能够采用mtMPS方法(Holt等,2019)。由于可获得的商业化试剂盒,如PowerSeq® WGM、Precision ID Whole mtDNA Genome Panel或ForenSeq™ mtDNA Whole Genome Kit,整个线粒体基因组的分析也成为可能,从而提高了鉴定能力,并使降解样本的分析成为可能。
目标富集(捕获)技术
然而,在法医案件中,某些情况下使用基于PCR的方法可能会导致测序失败。例如,极端的环境条件,如高温、阳光暴晒、潮湿、长时间水下浸泡以及古老遗骸的年龄等因素(Eduardoff等,2017;Loreille等,2018)都可能导致测序失败。这些样本适合使用DNA捕获方法进行分析,因为这些方法是为了分析高度降解的DNA样本而开发的,能够处理50 bp或更小的片段(Eduardoff等,2017;Marshall等,2020)。与NGS技术结合使用时,这些方法有可能从过度降解的样本中获得成功的结果,这些样本对于典型的测序方法来说通常无法成功分析。法医领域主要使用两种DNA捕获方法:Prime Extension Capture(PEC)和杂交捕获。
PEC技术涉及从低拷贝DNA提取物中生成连接的文库,并设计特定序列的生物素化引物来捕获和分离目标片段用于分析(Briggs等,2009)。这种技术对于捕获大约70 bp长的mtDNA片段非常有效,所需时间较少,并且已经为法医领域进行了优化,以适应最小DNA输入的需求。它适用于分析古代牙齿和骨骼样本,以及现代头发样本(Eduardoff等,2017)。
杂交捕获方法则不需要特定设计的引物,而是使用生物素化的DNA或RNA探针(Marshall等,2017)。它通过生成一个shotgun适配连接的文库,并与探针杂交,从而捕获和分离小于100 bp的mtDNA片段(Marshall等,2017)。与MPS结合使用时,它为从高度碎片化的样本中获得完整的线粒体基因组提供了一种方法。然而,杂交捕获的特点是低通量、劳动强度大且涉及多个管转移步骤(Templeton等,2013)。Marshall等(2020)使用杂交捕获方法结合NGS技术,成功鉴定了克罗地亚修女Sister Marija Crucifiska Kozulic的骨骼遗骸,该修女当时正在被梵蒂冈当局考虑为圣人候选人。
Sanger 测序
Sanger 方法首次提出已有四十多年历史,尽管随着新技术的加入,它仍然广泛用于线粒体DNA测序(Tagliabracci & Turchi 2020)。该过程基本上是通过DNA聚合酶酶促将脱氧核糖核苷三磷酸(dNTPs)纳入,形成mtDNA序列,期间通过加入脱氧核糖核苷三磷酸(ddNTPs)作为终止子来中断扩展,然后通过分离和检测过程实现足够的分辨率,以区分每个核苷酸(Sanger等,1977)。反应混合物中只含有一个mtDNA引物和dNTPs与ddNTPs,因此一些具有不同长度的线粒体DNA片段会被扩展,在测序反应结束时,存在多个不同的序列,每个序列之间仅有一个碱基的差异。自Smith等(1986)对该方法进行了改进后,每种dNTP都被标记上不同颜色的荧光染料,以便于视觉识别。
多年来,Sanger方法已经发展并变得更加敏感和高效。与简单的Taq聚合酶相比,使用了更平衡且高效的试剂,例如Big Dye®试剂盒(Applied Biosystems);通过加入新的荧光染料,信号与污染之间的比率得到了改善(Lee等,1997);这些改进使得使用1 ng的DNA量也能获得有力的结果(Stewart等,2003)。
如今,线粒体DNA测序协议通常包括以下步骤:(1)DNA提取,(2)定量,(3)通过PCR反应扩增控制区;(4)使用Exonuclease I和Shrimp Alkaline Phosphatase(EXO-SAP)混合物对PCR产品进行酶纯化,去除dNTPs和剩余的引物;(5)在电泳凝胶中可视化PCR产品;(6)进行mtDNA测序反应;(7)通过过滤去除剩余的ddNTPs和dNTPs,通常使用QIAamp旋转柱;(8)将测序产物稀释在形态酰胺中;(9)通过毛细管电泳分离并检测在测序设备中;(10)分析结果(Ballard 2016)。
第二代(短读)测序
为了简化流程、实现自动化、优化时间和实现高通量测序,2005年开发了新一代测序技术,之前称为“下一代测序(NGS)”技术(Calabrese等,2020)。虽然NGS技术之间存在差异,但它们具有一些共同的原理,如由于大规模平行反应而提高的测序产量、相似的工作流程、测序前需要进行文库准备以及仅生成小的DNA片段(Bruijns等,2018)。最常用的NGS方法是基于合成测序的,这意味着通过聚合酶或连接酶对引物DNA模板的序列扩展(Bruijns等,2018)。这会产生核苷酸合成周期,之后通过合成报告方法进行测量,报告方法可能基于荧光/光发射捕获或pH变化测量。需要提到的最相关的NGS技术是由罗氏、Illumina和Applied Biosystems开发的。
罗氏的454系统是首个开发并推出的NGS技术,在NGS技术的发展中起到了重要作用(Ansorge 2009)。然而,自2010年代中期以来,这个平台已经不再常规使用。之后开发了更为准确的方法,目前这些方法在人体法医遗传学领域中占据主导地位。454系统的原理基于“焦磷酸测序技术”(pyrosequencing),这是一种合成测序(SBS)方法。在该方法中,通过检测新合成DNA链中核苷酸的加入发出的光信号(Goodwin等,2016)。随着核苷酸的加入,硫酸酶将焦磷酸转化为三磷酸腺苷(ATP)(Margulies等,2005)。因此,萤光素酶使用ATP将荧光素转化为氧荧光素,发出光信号(Metzeker 2010)。然而,在测序之前,必须通过乳液PCR(em-PCR)方法准备文库,其中在每个DNA目标序列的两端添加带有44个碱基引物序列的小珠子,称为“适配器”A和B(Liu等,2012)。在乳液PCR过程结束时,每颗珠子都被加载到光纤滑动板的孔中(Bruijns等,2018)。Bekaert等(2013)在测试罗氏454系统测序整个控制区的能力时,观察到与STS方法的100%一致性,指出该技术适合法医案件工作。
Illumina的Solexa、HiSeq和MiSeq系统也基于SBS方法,需要用“适配”的A和B准备文库(Bruijns等,2018)。与454系统不同的是,Illumina系统没有使用乳液PCR技术,而是使用平面固体玻璃支持上的桥式扩增(Glenn 2011)。与适配序列互补的寡核苷酸位于平面支持上并与DNA目标序列杂交,形成桥接结构并附着在支持物上进行扩增(Buermans & Den Dunnen 2014)。随后,通过荧光标记的ddNTPs对扩增子簇进行测序(Strannehein & Lundeberg 2012)。最后,电荷耦合装置(CCD)相机检测不同的荧光信号并确定DNA序列(Kumar 2012)。Zavala等(2022)使用MiSeq系统成功测序了来自朝鲜战争和第二次世界大战的挖掘骨骼遗骸,证明了它对高度降解法医样本的测序分析的适用性。
Ion Torrent“Personal Genome Machine”使用乳液PCR法和小磁珠进行文库准备。但其检测方法基于每个DNA序列中加入核苷酸时的pH变化(Quail等,2012)。由于核苷酸连接所需的焦磷酸水解释放的质子,会被位于孔板底部的传感器表面监测的互补金属氧化物半导体(CMOS)传感器阵列检测到(Heather & Chain 2016)。Gouveia等(2017)在评估Applied BiosystemsTM开发的专为法医案件设计的Precision ID mtDNA Whole Genome Panel时,使用Ion S5TM系统进行测序,观察到162个单倍型与先前STS结果一致。
第三代(长读)测序
在上一个十年初期,作为NGS技术的进化,第三代测序技术应运而生,使得能够实时读取单分子(Goodwin等,2016)。此外,这些技术在测序前不需要PCR文库准备,避免了与PCR相关的错误,从而提高了准确性(Calabrese等,2020)。第三代测序技术还能够一次性测序整个线粒体基因组,在单次反应中完成,提供了NGS短片段的宝贵替代方案,减少了错误和链偏倚(Kchouk等,2017)。最相关的第三代测序技术包括PacBio和Oxford Nanopore Technologies。
PacBio是首个开发并发布的第三代测序技术,推出于2010年(Schadt等,2010)。它基于一种称为单分子实时(SMRT)测序的合成测序方法,其中通过荧光标记的核苷酸,在DNA聚合酶合成DNA的过程中,实时检测单一DNA分子(Eid等,2009)。用金属膜涂层的小玻璃井,形成了一种称为零模式波导(ZMW)的光子纳米结构,允许实现单分子分辨率(Korlach等,2010)。在这一结构的底部,一台高分辨率相机实时检测每个核苷酸被加入时发出的荧光(Lundquist等,2008)。通过在PacBio Sequel平台上使用长读单分子实时测序(SMRT)策略,Chen等(2020)成功解码了32对单卵双胞胎个体的mt基因组,准确区分了这些个体,并在所有16对双胞胎中发现了785个低频变异,变异阈值为2%,且质量控制高。尽管这一技术尚未广泛应用,但这些结果展示了该方法在法医中的显著潜力。
与PacBio类似,Oxford Nanopore Technologies的MinION测序仪也基于合成测序(SBS)方法,并且不需要PCR文库准备(Bruijns等,2018)。MinION测序不依赖昂贵的荧光标记,而是基于通过膜中蛋白质纳米孔时,核苷酸产生的离子电流差异进行检测,该膜将两室充满导电电解质(Branton等,2008)。在Lindberg等(2016)进行的一项研究中,验证了MinION在解析来自同一单倍群个体的DNA混合物以及正确识别DNA样本捐赠者的能力,结果表明,该技术能够准确识别单源样本,具有较高的精确度和召回率。此外,概念验证中的长读分相(phasing)测试显示,MinION可以提供二代测序无法获得的SNP信息,从而区分同一单倍群的两名个体。然而,一个缺点是,当处理降解的线粒体DNA时,这种技术无法可靠使用。
线粒体DNA测序结果的解读
在线粒体DNA测序后,参考样本(K样本)和证据或待定样本(Q样本)与修订后的剑桥参考序列(rCRS)进行比对和对比,以解读结果(Holland,2012)。一般而言,解读过程遵循以下SWGDAM建议(SWGDAM,2019):
■排除:如果没有长度异质性,且待定样本和已知样本在核苷酸位置上有两个或更多差异,则可以排除它们属于同一人或母系血统。
■无法得出结论:如果待定样本和已知样本在一个核苷酸位置上有差异,则该结果必须报告为无法得出结论。
■不能排除:如果两个样本在比较的每个核苷酸位置上具有相同的序列,则不能排除它们来自同一人或母系血统。
当观察到单个碱基差异时,必须将结果视为无法得出结论,因为在属于同一母系血统的个体之间已经报告了突变(Parsons等,1997)。如果可能,应对更多的参考样本进行测序,以便在这种情况下做出更好的解读。
当获得“不能排除”结果时,必须搜索mtDNA数据库,验证该序列在群体中的频率,通过计算获得的序列(或单倍型)出现的次数,然后估计匹配的统计学意义(Melton,2014)。这种方法称为计数法。
线粒体DNA测序的挑战:组织特异性变异与法医学意义
线粒体DNA(mtDNA)测序常常面临一些特殊挑战,主要与异质性(heteroplasmy)、核线粒体DNA片段(NUMTs)以及胞嘧啶脱氨作用(cytosine deamination)等组织特异性问题相关(Marshall & Parson,2021)。这些因素必须被仔细考虑,以确保mtDNA分析和解读的准确性。
研究表明,异质性水平可能具有高度的组织特异性(Wachsmuth等,2016)。例如,某些mtDNA突变可能仅存在于某些组织中,或者它们在不同组织中的频率不同。异质性的这种组织特异性分布被认为是由于不同细胞类型中线粒体复制需求和线粒体周转速率的差异所致(Melton,2004)。例如,肌肉和大脑等高能量需求的组织可能与低能量需求的组织相比,展现出不同的异质性模式。
在这方面,Naue等(2014)发现异质性的相对数量在肌肉和肝脏中最高,分别为79%和69%。其次是大脑、头发和心脏,异质性范围为36.7%到30.2%。在骨骼、血液、肺部和口腔细胞中,异质性较低,范围为19.8%到16.2%。
尽管异质性变异可能为法医分析案件提供额外的区分能力,但在测序来自异质性水平较高的组织时,区分真正的异质性变异和测序错误变得具有挑战性(Holland等,2018)。在法医基因学中,这一问题尤为突出,因为如果待定mtDNA和参考样本来自不同的组织,它们的mtDNA谱系可能无法匹配。此外,异质性的程度可能影响mtDNA证据的解读,若未正确考虑,可能导致错误的排除或归属。
胞嘧啶脱氨作用是特定组织中常见的问题,例如牙齿和骨骼(Hansen等,2017)。这一过程通常在老化或降解的样本中由于环境因素(如年龄、温度、pH值和水分)而加剧(Gorden等,2018)。线粒体DNA中的胞嘧啶脱氨作用是一种DNA损伤形式,其中胞嘧啶碱基被转化为尿嘧啶。在PCR扩增和文库制备过程中,这可能导致突变,通常表现为C到T的转变(Marshall & Parson,2021)。胞嘧啶脱氨的存在会使mtDNA数据的分析和解读变得复杂,因为它可能引入伪影,模仿真实的遗传变异。
NUMTs与组织类型的关系是法医基因学中的一个重要考虑因素。NUMTs的普遍存在在不同组织中可能有所不同,原因是线粒体DNA的拷贝数以及DNA修复和复制的过程(Wachsmuth等,2016)。例如,具有较高mtDNA拷贝数的组织,如口腔样本,通常会比血液中含有较低mtDNA拷贝数的组织,产生较少的NUMTs(Zhou等,2023)。这是由于细胞中核DNA(nDNA)拷贝数的恒定性。精液样本可能对DNA分析造成困难,因为其中的mtDNA与nDNA的比例可能大大降低。这个问题在含有浓缩精子头部的样本中尤其明显,例如从差异溶解分数的沉淀物中获得的样本,或者对于较老的和已经腐败的污点,鞭毛尾部和连接部分缺失的情况(Marshall & Parson,2021)。NUMTs在mtDNA测序中可能是一个问题,因为它们可能与真实的mtDNA一起被扩增和测序,从而导致混合或污染的序列数据。当处理低水平异质性时,NUMTs可能被误认为是真正的mtDNA变异,这一点尤其具有挑战性。
在mtDNA分析的背景下,核线粒体DNA片段(NUMTs)通常出现在已知的NUMT位点,而点异质性和随机错误则随机出现在线粒体基因组中(Smart等,2019)。点异质性,尤其是在编码区的异质性,在大多数线粒体单倍型中通常不会被法医变异检测阈值(通常设定在5%到10%之间)检测到(Just等,2015)。NUMTs(包括较大的NUMTs,称为mega-NUMTs)和点异质性通常可以在同一DNA样本的PCR扩增中一致重现,而随机错误则无法一致重现(Marshall & Parson,2021)。
胞嘧啶脱氨作用导致的变异,如C到T和G到A的替换,比点异质性更容易识别。这是因为其发生在降解DNA片段的末端(Marshall & Parson,2021)。在法医样本中观察到的这种脱氨变异在不同的PCR或文库制备中不会复制(Gorden等,2018)。相反,来自不同个体的DNA混合物可以被复制,并在不同单倍型的诊断位点上显示低频变异,从而可被识别。
常见的NUMTs与mega-NUMTs不同,可以根据变异的位置加以区分,通常这些位置与参考线粒体基因组(rCRS)中已知的NUMT易感区域相一致(Marshall & Parson,2021)。测序错误,作为另一种低频变异的来源,可以通过链不平衡来指示,其中变异只出现在某一方向的测序中。虽然测序错误可能导致较低的碱基质量,但这并不是NUMTs的指示标志。仔细考虑这些因素对准确的mtDNA法医分析至关重要。
线粒体DNA命名法
线粒体DNA(mtDNA)类型的命名建议与国际纯粹与应用化学联合会(IUPAC)的编码标准保持一致。为了方便起见,修订的剑桥参考序列(rCRS)被作为mtDNA命名的标准(Parson等,2014)。
在将个体的mtDNA序列与rCRS进行比较时,仅记录在特定位点和核苷酸处的差异,这些差异通过数字和字母表示。例如,如果rCRS在第73位(在HVI区)有腺嘌呤(A),但大部分人群在该位点上带有鸟嘌呤(G),则个体的mtDNA序列将被描述为73G,字母大写。如果没有其他变异,则假设分析的mtDNA序列与rCRS相同,仅在第73位存在差异。
当与rCRS相比观察到差异时,所观察到的变异作为后缀附加到位置后面(例如,73G)。而rCRS的变异则作为前缀标出(例如,A73)。如果某个位点的变异未能解决,则该位置的数字后面会加上‘N’(例如,16125N)。插入变异通过指示插入前的位点,后跟小数点和数字标识符来描述(例如,315.1C表示在第315位之后的第一个插入)。
在处理同质聚合区(homopolymeric tracts)时,如果插入位置不明确,假设插入发生在同质聚合区域的最高编号端(Carracedo等,2000)。例如,如果一个常见的同质聚合区跨越核苷酸位置311到315(包括),并且C插入发生在315之后,那么所使用的命名法为315.1C。缺失则通过列出缺失的位点,后跟‘DEL’、‘del’或‘-’来记录(例如,220del、220DEL或220-)。
如果观察到异质性,建议使用字母R来表示A和G的混合,使用Y表示C/T异质性。IUPAC编码使用大写字母,这允许扩展现有的命名法,包括小写字母(Bandelt & Dür,2007)。这种扩展特别适用于描述涉及缺失或未缺失、插入或未插入碱基的异质性混合。例如,152c表示在T152核苷酸位置上出现了转换和缺失的异质性混合。另一方面,315.1c表示315.1C位置的插入与另一没有此插入的序列的混合。
为了避免因错乱的比对产生歧义,并有助于确定单倍型表示,提出了系统的命名指南(Parson等,2014)。这些指南规定,差异编码的单倍型比对应基于公认的线粒体系统发育突变模式。
因此,建议按照当前对系统发育的理解对序列进行比对。最全面的资源库是Phylotree(www.phylotree.org),推荐使用面向rCRS的版本(vanOven & Kayser,2009)。在多种同样合理的解决方案下,应考虑使用最大加权简约法(maximum weighted parsimony)。然而,长C区段旁边的变异应遵循特定的序列规范。例如,HVS-I和HVS-II的长C区段应始终分别标记为16189C和310C。在16184之前的短A区段的长度变异应优先标注为反转突变,除非系统发育表明应有所不同。相应地,插入缺失(indels)应放置在轻链的3’端,除非系统发育表明应有所不同。
尽管没有任何命名方案可以完美解决mtDNA多样性的复杂性,但系统发育方法提供了一个进化视角,因其具有以下几个方面的优势,因此被强烈推荐。系统发育对齐规范与法医领域中其他基因学领域中的常见实践相一致,这些领域通常会交换数据(Parson等,2014)。此外,单倍型的系统发育命名旨在阐明实际的生物突变,从而有助于估算位点突变率,并为更详细、更具科学性和生物学依据的法医学证据解读奠定基础。在这方面,EMPOP数据库除了存储最大数量的质量控制单倍型外,还包括了对mtDNA序列进行注释的必要工具(Rock等,2011)。
人类线粒体DNA数据库
人类线粒体DNA(mtDNA)群体数据库在法医学领域具有重要意义,因为从疑似样本(例如犯罪嫌疑人)获得的mtDNA序列与证据样本的mtDNA序列相对应(Tagliabracci & Turchi,2020)。当疑问样本和已知参考样本的线粒体基因组无法排除来源相同时,建议查找线粒体DNA序列稀有性的相关信息。参考序列的可得性至关重要,因为mtDNA匹配比较的权重由估算相关群体中的单倍型频率决定(Just等,2015;Taylor等,2020)。在这种情况下,计算特定序列在群体数据库中出现的次数是很有用的。因此,国际上已做出了巨大努力,开发了拥有数千个母系相关个体群体档案的数据库(Butler,2012)。
在这方面,美国联邦调查局(FBI)创建了一个线粒体DNA群体数据库,称为CODISmt(Combined DNA Index System - mitochondrial),旨在为法律应用建立频率估算。CODISmt包含大约五千个来自十四个不同群体的mtDNA档案(Butler,2012)。
欧洲DNA鉴定小组(EDNAP)开发了世界上最大的线粒体DNA群体数据库——EMPOP,收录了来自全球多个群体的超过四万八千个质量控制过的mtDNA序列(Huber等,2018)。
另一个值得关注的线粒体DNA群体数据库是人类线粒体基因组数据库(mtDB),该数据库由瑞典乌普萨拉大学的研究人员开发和维护,包含了超过两千条线粒体DNA序列,这些序列分布在十个地理区域:非洲、北美、南美、亚洲、澳大利亚、欧洲、美拉尼西亚、中东、波利尼西亚和东南亚(Ingman & Gyllensten,2006)。
尽管如此,公众数据库中线粒体基因组的可获取性引发了一些潜在的伦理问题,如基因隐私问题。尽管与疾病易感性相关的基因通常不是法医实验室的研究重点,但越来越多的法医学研究开始采用完整线粒体基因组的方法,以增加区分度。这些信息可以轻松地通过mtDNA数据库获得。为了解决这个问题,法医实验室必须制定严格的基因隐私政策,以保护意外发现的医学信息(Scudder等,2018)。
结论
在过去几十年中,线粒体DNA分析在广泛的法医学应用中发挥了重要作用。线粒体DNA因其独特的特性,如每个细胞中的高拷贝数、保护性的环形结构、高突变率、非孟德尔母系遗传、无重组以及抗降解性,已证明是人类身份识别的重要资源。它已被用于协助识别大规模灾难中的受害者、解决历史谜团并提供犯罪案件中的关键证据。著名的例子包括沙皇尼古拉二世遗骸的识别、阿根廷独裁政权受害者的识别以及罗曼诺夫家族无根发丝的分析。
线粒体DNA测序技术经历了显著的演变,从开创性的桑格测序到下一代测序(NGS)技术的出现。来自罗氏、Illumina和应用生物系统等公司的第二代测序方法提高了速度和准确性;而第三代测序技术,如PacBio和Oxford Nanopore Technologies,则提供了实时读取单分子的优势。
总之,线粒体DNA分析通过在核DNA因稀缺或降解而失效的情况下提供人类身份识别的有价值工具,显著扩展了法医学的能力。测序技术的进步和综合线粒体DNA数据库的发展,持续提高了它在解决复杂法医案件中的有效性。
致谢
本研究得到了巴西国家科学与技术发展委员会(CNPq)通过资助项目[170284/2018-2]的支持。作者未报告任何潜在的利益冲突。
原文链接:https://www.scielo.br/j/aabc/a/5DgryBp8CYHqG9JKDG5RYdB/