版权归原作者所有,如有侵权,请联系我们

[科普中国]-SNP

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

SNP就是英文“single nucleotide polyrnorphism”的缩写,意为单核苷酸多态性,或单碱基多型性,也就是人与人之I司-个碱基之间的差异。基因组序列差异有好几种,如碱基插入、缺失、SNP以及微卫星等,SNP仅是其中最常见和最普遍的一种,在临床上有很重大的意义。人与人的基因序列中有99.9%以上的序列都是相同的,仅有0.1%不同,即1000个碱基中有1个不同,人类基因组有30亿对碱基,按此计算,整个人类基因组中有300万个碱基不同。通常这300万个不同的碱基被称为人类的SNP数目。,其中在cDNA上的SNP又被称为cSNP,基因组卜的SNP又被称为gSNP,由于SNP是由个人的遗传背景决定的,且可以作为临床具有意义的诊断标志物( Marker),所以发达国家都投人大量的人力与财力进行SNP的解析,努力建成本民族的SNP数据库1。

简介SNP( single nucleotide polymorphism,SNP),即单核苷酸多态性,是属于第三代遗传标记,广泛地分布于染色体上。SNP主要是指由基因组核苷酸水平上的变异引起的DNA序列多态性,而其中最少一种等位基因在群体中的频率不小于1%。包括单碱基的转换、颠换以及单碱基的插入和缺失等,例如,一个SNP可以将一个DNA序列 AAGMCTAA变为 ATGGCTAA。在基因组内,SNP可以划分为两种形式:一是遍布于基因组的大量单碱基突变;二是基因编码区的功能性突变,由于分布在基因编码区(coding region),故又称其为cS-NP。cSNP经常引起表达蛋白的多态性变异,有时会影响他们的功能特性。SNP在单个基因或整个基因组的分布是不均匀的,在非转录序列要多于转录序列,而且在转录区非同义突变(有氨基酸序列的改变)的频率,比其他方式突变的频率低得多。有人推测人类基因组有近百万个SNP位点,其中大约有50万个在非编码区,估计有24万~40万个在因编码区与蛋白质的功能有关,而cSNP中估计只有2.4万~4万个SNP是非同义的替换。SNP的频率在基因的5′端非编码区、3′端非编码区、内含子、沉默位点及编码区有显著差异,突变热点CpG的频率在这5种区域中也存在显著差异。SNP中的发生频率大于1%2。

作用和成果SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。SNP在基因组中分布相当广泛,研究表明在人类基因组中每300碱基对就出现一次。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。SNP在基础研究中也发挥了巨大的作用,通过对Y染色体SNP的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。

单核苷酸多态性(single nucleotide polymorphism,SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。

SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。

理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说的SNP都是二等位多态性的。这种变异可能是转换(C T,在其互补链上则为G A),也可能是颠换(C A,G T,C G,A T)。转换的发生率总是明显高于其它几种变异,具有转换型变异的SNP约占2/3,其它几种变异的发生几率相似。Wang等的研究也证明了这一点。转换的几率之所以高,可能是因为CpG二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶。

在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在基因序列内,也有可能在基因以外的非编码序列上。总的来说,位于编码区内的SNP(coding SNP,cSNP)比较少,因为在外显子内,其变异率仅及周围序列的1/5。但它在遗传性疾病研究中却具有重要意义,因此cSNP的研究更受关注。

从对生物的遗传性状的影响上来看,cSNP又可分为2种:一种是同义cSNP(synonymous cSNP),即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;另一种是非同义cSNP(non-synonymous cSNP),指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。这种改变常是导致生物性状改变的直接原因。cSNP中约有一半为非同义cSNP。

先形成的SNP在人群中常有更高的频率,后形成的SNP所占的比率较低。各地各民族人群中特定SNP并非一定都存在,其所占比率也不尽相同,但大约有85%应是共通的2。

特性SNP自身的特性决定了它更适合于对复杂性状与疾病的遗传解剖以及基于群体的基因识别等方面的研究:

1、 SNP数量多,分布广泛。据估计,人类基因组中每1000个核苷酸就有一个SNP,人类30亿碱基中共有300万以上的SNPs。SNP 遍布于整个人类基因组中,根据SNP在基因中的位置,可分为基因编码区SNPs(Coding-region SNPs,cSNPs)、基因周边SNPs(Perigenic SNPs,pSNPs)以及基因间SNPs(Intergenic SNPs,iSNPs)等三类。

2、 SNP适于快速、规模化筛查。组成DNA的碱基虽然有4种,但SNP一般只有两种碱基组成,所以它是一种二态的标记,即二等位基因(biallelic)。 由于SNP的二态性,非此即彼,在基因组筛选中SNPs往往只需+/-的分析,而不用分析片段的长度,这就利于发展自动化技术筛选或检测SNPs。

3、 SNP等位基因频率的容易估计。采用混和样本估算等位基因的频率是种高效快速的策略。该策略的原理是:首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率。

4、 易于基因分型。SNPs 的二态性,也有利于对其进行基因分型。对SNP进行基因分型包括三方面的内容:(1)鉴别基因型所采用的化学反应,常用的技术手段包括:DNA分子杂交、引物延伸、等位基因特异的寡核苷酸连接反应、侧翼探针切割反应以及基于这些方法的变通技术;(2)完成这些化学反应所采用的模式,包括液相反应、固相支持物上进行的反应以及二者皆有的反应。(3)化学反应结束后,需要应用生物技术系统检测反应结果2。

本词条内容贡献者为:

江松敏 - 副教授 - 复旦大学