高通量测序质控用文库及其制备方法和应用与流程

文档序号：37778310发布日期：2024-04-25 11:04阅读：38来源：国知局

本发明涉及基因测序，尤其涉及一种高通量测序质控用文库及其制备方法和应用。

背景技术：

1、高通量测序技术又称下一代测序技术（next-generation?sequencing，ngs），一次能对几十万到几百万条核酸分子进行序列测定，是目前发展最为迅速的技术之一，其已深入生命科学的各个领域，在肿瘤检测、新药研发等方面前景广阔。高通量测序技术通量大、灵敏度高等优点已使其成为目前临床分子检测中最重要的应用平台之一。

2、高通量测序仪在测序时会采用前几十个测序cycle信号来确定簇的位置和密度等信息，这些信息影响了测序信号采集、测序碱基质量。碱基不平衡文库（即每个测序cycle中a、g、c、t四种碱基的含量远远偏离25%）在测序时会导致测序仪荧光信号采集失真，大大降低碱基识别的准确性，进而影响测序结果的准确性。尤其在甲基化dna测序中，常通过亚硫酸氢盐使dna中未甲基化的c转化为u，进而在pcr过程中转化为t，这种转化使待测序的dna中c碱基占比大大降低，很容易导致测序中碱基的不平衡。

3、为解决这一问题，目前主要采用混合质控文库与待检样本文库共同上机测序的方式。但是现有质控文库主要通过非人源dna（如phix噬菌体dna）来制备，通过片段筛选方式获得一定长度范围的文库，最终混入待检样本文库中一同测序。这种方法的主要问题是：制备过程中涉及片段筛选、获得的质控文库非固定序列容易导致批间存在差异。

4、有鉴于此，特提出本发明。

技术实现思路

1、为解决上述技术问题，本发明提供了一种高通量测序质控用文库及其制备方法和应用，可有效降低因待测文库碱基不平衡导致的碱基测序质量下降问题。

2、具体的，本发明的技术方案如下：

3、第一方面，本发明提供了一种高通量测序质控用文库，由包括序列插入片段的模板dna经pcr扩增得到；所述序列插入片段包括序列插入片段a、序列插入片段b、序列插入片段c和序列插入片段d；所述序列插入片段a的核苷酸序列如seq?id?no.1所示；所述序列插入片段b的核苷酸序列如seq?id?no.2所示；所述序列插入片段c的核苷酸序列如seq?idno.3所示；所述序列插入片段d的核苷酸序列如seq?id?no.4所示。

4、序列插入片段a：

5、cgaggattcaacaaggtgatcgaagtcgacagatccagagagacgggcttcaaagctgcgtgacgacgcttgcgagtccgtatcaatatcctcacaataagcacacgtgaccgttggttgaacagcacaggacgagctgaccagaagcactattatatcgcttaacggctcttgagccagtgtgcgttaccttgcagcaatcgaggccgtccgttaattcctcttgcattcatatcgcgtattgttgtctctgtacgcgcttacttggatcaggatgacatagcttcttacaggagcgtc

6、序列插入片段b：

7、acttagactgcagctagtcgatggtcgactgatcgtgactcctgatatcatgcctaacgcgatgtgtagcatgctagtacgtgactgcatgcatgctagctagtcacgtcagtcatcagtgcatcgtactcgatgctgtcgtcagtagctacaggacagatcgctgacgatgcatagtcactgatcgatggcatgcatgcatagcatgtcagtcgtgactgagactacgatgctagcatgcagtcgacagtcagctagtagactgactgcactatctcacctagcgtagctcacgtacaa

8、序列插入片段c：

9、gacatcgagtgttgctactagcctagtctatcgaagctgctactcacaggacttcggatactcactgtagcataccagtacgctggctgatagctgcgtgatcgtgtcagtacgcatgcactgcatgtgcatgctagactaggctctagagtcacgtgatgactgactagacgtctaagtacacgtacgttagcatcgctgactataacagtagactcgatgagactgacgcagctatcagcacgacgtcagtcgatacgacgacgtatgttctcactgtagctacagctggtatcgtcg

10、序列插入片段d：

11、ttgcctcgactgctaccagctatccaatggctcgtatctagtgatctgacgtggatctatacgtacactagcatgtcagtacagtcagcgagtgatgcctcgtagtaactgtaagcacactgtgtacgtatctactacagtattcgcttgcggctcgctcagagcttatcgaacgctgtcgactaacgcaagcatgtatgcgtctcgtagtacacgcgagactcgagtcgatgcgatgactgcaactagagacatgctatcgtgacaccaggacggagtggctagagcagatctcatagt

12、上述4种序列插入片段的长度均为300bp，其各自的4种碱基agct含量均相同（四种碱基各占25%），且这4种特定序列插入片段对应的相同位置上dna碱基（a/g/c/t）均不相同。4种特定序列插入片段均无法比对到人、常见动植物和微生物，可有效防止数据污染。

13、优选地，所述高通量测序质控用文库包括4组目标特定序列；所述目标特定序列包含双端接头、双端index和核心区序列。所述核心区序列由所述序列插入片段扩增得到；4组目标特定序列的核心区序列长度相同，且在序列插入片段a、序列插入片段b、序列插入片段c和序列插入片段d上对应的位置相同；所述核心区序列的长度为100-300bp。

14、本发明以上述4种序列插入片段a/b/c/d或包含上述4种序列插入片段a/b/c/d的质?；虺ち磀na分子为模板，经pcr扩增，可获得含有4种目标特定序列的文库。目标特定序列文库由4种不同序列的文库组成，文库两端包含双端接头、双端index及特定序列（特定序列来自上述序列插入片段a/b/c/d）。4种目标特定序列文库的核心区的长度均相同（100~300bp，优选150~250bp，优选250bp）。4种目标特定序列文库的序列均是单一且固定的。4种目标特定序列各自的4种碱基agct含量均相同（四种碱基各占25%），且这4种目标特定序列对应的相同位置上dna碱基（a/g/c/t）均不相同，因此可使用在同一个测序cycle中，这4种文库测出的序列各不相同。4种目标特定序列文库需与待检样本文库的长度接近，避免差异过大，以使目标特定序列文库与待检样本文库在测序仪上进行无差异反应（例如通过桥式扩增生成簇的过程）。另外，本发明提供的高通量测序质控用文库含有双端标签（index）序列，测序数据下机后可直接进行数据拆分，用于质控数据的详细评估（包括但不限于质控数据量在总数量中的占比、测序质控用文库测序结果与已知测序结果的对比等）。

15、举例说明本发明涉及的4种目标特定序列文库组成结构，包含但不限于下述结构序列：

16、illumina测序平台测序质控用文库结构序列：

17、5'-aatgatacggcgaccaccgagatctacac

18、-index2（cgcatgtc）

19、-acactctttccctacacgacgctcttccgatctt

20、-序列插入片段a/b/c/d

21、-aagatcggaagagcacacgtctgaactccagtcac

22、-index1（tcattcga）

23、-atctcgtatgccgtcttctgcttg-3'。

24、华大测序平台测序质控用文库结构序列：

25、5'-ctctcagtacgtcagcagtt

26、-index2（cgcatgtc）

27、-caactccttggctcacagaacgacatggctacgatccgacttt

28、-序列插入片段a/b/c/d

29、-aaagtcggaggccaagcggtcttaggaagacaa

30、-index1（tcattcga）

31、-ctgataaggtcgccatgc-3'。

32、本发明优选等摩尔浓度混合4种目标特定序列文库（根据文库的质量浓度和分子量计算摩尔浓度并按照等摩尔浓度混合），同时采用数字pcr进行质检。质检合格后，加入一定浓度的poly(dn)（n=a/c/t/g碱基），制成测序质控用文库。poly(dn)优选poly(da)，poly(da)的浓度为0.1~100ng/μl，优选1~10ng/μl，优选1ng/μl；da碱基数为5~100，优选10~50，优选18~30。

33、将测序质控用文库与待检样本文库按一定比例混合后通过高通量测序仪测序。测序质控用文库在总文库（测序质控用文库与待检样本文库之和）中的占比为1~50%，优选5~20%，优选5~10%，优选5%。

34、第二方面，本发明提供了所述高通量测序质控用文库的制备方法，由包括序列插入片段的模板dna经pcr扩增得到；所述序列插入片段包括序列插入片段a、序列插入片段b、序列插入片段c和序列插入片段d；所述序列插入片段a的核苷酸序列如seq?id?no.1所示；所述序列插入片段b的核苷酸序列如seq?id?no.2所示；所述序列插入片段c的核苷酸序列如seq?id?no.3所示；所述序列插入片段d的核苷酸序列如seq?id?no.4所示。

35、本发明提供的方法可快速、稳定制备出含有目标特定序列且固定长度的可拆分测序质控用文库。

36、优选地，用于pcr扩增的引物对的上游引物核苷酸序列如seq?id?no.5所示，下游引物核苷酸序列如seq?id?no.6所示。此时，4种文库所含目标特定序列长度为300bp，仅需一轮pcr和一轮纯化即可完成制备。

37、作为另一种可选的实施方式，用于pcr扩增的引物对包括如下（1）、（2）、（3）、（4）和（5）所示引物对：

38、（1）上游引物核苷酸序列如seq?id?no.5所示，下游引物核苷酸序列如seq?idno.7所示；

39、（2）上游引物核苷酸序列如seq?id?no.5所示，下游引物核苷酸序列如seq?idno.8所示；

40、（3）上游引物核苷酸序列如seq?id?no.5所示，下游引物核苷酸序列如seq?idno.9所示；

41、（4）上游引物核苷酸序列如seq?id?no.5所示，下游引物核苷酸序列如seq?idno.10所示；

42、（5）上游引物核苷酸序列如seq?id?no.5所示，下游引物核苷酸序列如seq?idno.11所示。

43、当用于pcr扩增的引物对选自（1）、（2）、（3）、（4）和（5）时，获得的4种文库所含目标特定序列长度为160bp，共需两轮pcr和纯化完成制备。其中，（1）、（2）、（3）和（4）所示引物对用于第一轮pcr扩增，（5）所示引物对用于第二轮pcr扩增。

44、基于相同的原理，其他未列出的能特异性针对本发明所述序列插入片段a/b/c/d，在相同碱基位置进行pcr扩增，且能获得相同技术效果（即4种目标特定序列各自的4种碱基agct含量均相同，且这4种目标特定序列对应的相同位置上dna碱基均不相同）的引物组合也在本发明的?；し段е?。

45、第三方面，本发明提供了所述高通量测序质控用文库或者所述制备方法制备得到的高通量测序质控用文库在高通量测序中的应用。

46、优选地，本发明所述应用将所述高通量测序质控用文库与待检样本文库混合，然后通过高通量测序仪测序；其中，所述高通量测序质控用文库中的目标特定序列与待测样本序列长度相同或相差±100bp以内。

47、第四方面，本发明还提供了一种高通量测序文库，包括所述高通量测序质控用文库，还包括待测样本文库；所述高通量测序质控用文库在所述高通量测序文库中的占比为1-50%，优选为5-20%，更优选5-10%，更优选为5%。

48、本发明优选根据数字pcr得到的拷贝浓度进行分析，若所述高通量测序质控用文库中的4种目标特定序列文库两两之间的拷贝浓度的相对偏差不超过±10%即可判定为合格。如果不合格，则根据数字pcr结果进一步调整文库浓度，直至合格。

49、有益效果：

50、本发明提供了一种高通量测序质控用文库及其制备方法和应用。本发明提供的高通量测序质控用文库在每个碱基位置的碱基占比均是均衡的。将本发明提供的高通量测序质控用文库与待测样本文库混合后共同上机测序，可消除因待检样本文库碱基序列的不平衡性所导致的测序质量降低，提高对不平衡文库测序的准确性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈辉,王旭彤,莫敏俐,陈钊,刘玉忠,张艳,万冲,侯光远,张峰,许军普
技术所有人：北京雅康博生物科技有限公司
我是此专利的发明人

上一篇：一种再生聚酯湿式破碎装置的制作方法
上一篇：一种用于小净距隧道中夹岩加固支护设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
2、张老师：1.探索新型氧化还原酶结构-功能关系，电催化反应机制 2.酶电催化导向的酶分子改造 3.纳米材料、生物功能多肽对酶-电极体系的影响4. 生物电化学传感和生物电合成体系的设计与应用。
3、豆老师：1.环境纳米材料及挥发性有机化合物（VOCs） 2.CO污染物的催化氧化 3.低温等离子体 4.吸脱附等控制技术
4、赵老师：1.高分子材料改性及加工技术 2.微孔及过滤材料 3.环境友好高分子材料
5、邬老师：1.高分子材料的共混与复合 2.涉及材料功能化及结构与性能的研究；高分子热稳定剂的研发
如您是高校老师，可以点此联系我们加入专家库。