一种基于自然语言处理的单细胞数据分析方法

文档序号：37777714发布日期：2024-04-25 11:04阅读：11来源：国知局

本发明涉及单细胞相关技术数据分析，具体涉及一种基于自然语言处理的单细胞数据分析方法。

背景技术：

1、随着计算机技术的高速发展，计算机技术已经被应用于各个学科，信息生物学是近年来的研究热门领域，应用计算机技术帮助解决生物学方面的问题变得越发普遍，近年来，随着人们对生物学和医学的研究深入，单细胞学成为研究的热点方向；随着测序技术的快速发展，研究人员获得了大量的单细胞rna测序数据，无监督聚类技术对单细胞rna测序(scrna-seq)数据的分析有着重要的作用，针对单细胞rna测序(scrna-seq)数据的聚类方法不仅可以识别未知的细胞类型，还能够揭示跨组织、发育阶段和生物体等细胞亚群之间的异质性和多样复杂性。

2、但现有技术中，由于是对单个细胞rna测序，数据具有高噪音、高稀疏的特点，常用的无监聚类方法效果并不理想，目前的聚类方法忽略了对细胞间潜在特征关系的充分挖掘以及对噪声的去除，无法充分利用数据间的特征对数据进行有效聚类，为此人们提出了许多新的方法对其进行聚类，但是这些方法通常都忽略大部分的数据，产生的细胞分组准确性较低，并可能忽略罕见的细胞类型。

3、综上所述，研发一种基于自然语言处理的单细胞数据分析方法，仍是单细胞相关技术数据分析技术领域中急需解决的关键问题。

技术实现思路

1、针对现有技术所存在的问题，本发明的目的在于提供一种基于自然语言处理的单细胞数据分析方法，本发明通过自然语言处理方法识别大规模文档单细胞测序数据中潜藏的语义信息，根据自然语言处理方法的结果来挖掘单细胞相关技术中的潜在信息，通过specter聚类方法对原始数据矩阵进行聚类分析，得到最终聚类结果，解决了参数敏感性问题，提高了聚类的准确性，该算法在实际应用中具有较高的应用价值。

2、为实现上述目的，本发明提供了如下技术方案：

3、一种基于自然语言处理的单细胞数据分析方法，包括以下步骤：

4、s1、对单细胞文本数据集进行预处理及质量控制，得到单细胞测序数据；

5、s2、通过自然语言处理技术，对单细胞测序数据进行特征提取，得到原始数据矩阵；

6、s3、通过specter聚类方法对原始数据矩阵进行聚类分析，得到最终聚类结果；

7、s4、聚类分析完成后，对最终聚类结果进行评估和注释。

8、本发明进一步设置为：在步骤s1中，所述对单细胞文本数据集进行数据收集及预处理，得到单细胞测序数据，包括以下步骤：

9、s11、采集scrna-seq特征峰的dna一级序列，作为单细胞文本数据集；

10、s12、质量控制：先采用较为松弛的标准对单细胞文本数据集进行初筛，再利用sinqc工具，通过综合基因表达模型和文库质量信息去除单细胞文本数据集中的技术噪音；

11、s13、缺失值填充：利用缺失值填充工具来填充缺失值；

12、s14、序列比对：利用star比对程序进行序列比对，一次性完成对单细胞文本数据的上游分析；

13、s15、数据标准化处理：通过sctransform的标准化策略，进行数据标准化处理。

14、本发明进一步设置为：在步骤s15中，所述数据标准化处理使用正则化负二项分布的残差，且其工作流程中未使用缩放因子，同时可以为每个基因构建单独的广义线性模型。

15、本发明进一步设置为：在步骤s2中，所述通过自然语言处理技术，对单细胞测序数据进行特征提取，得到原始数据矩阵，包括以下步骤：

16、s21、利用hash?trick进行单细胞测序数据表示，构建文档向量空间模型，生成文档向量；

17、s22、提取文档向量中的文本特征，得到文本分类主题和特征项；

18、s23、对文本分类主题进行向量表达，生成原始数据矩阵。

19、本发明进一步设置为：在步骤s3中，所述通过specter聚类方法对原始数据矩阵进行聚类分析，得到最终聚类结果，包括以下步骤：

20、s31、记原始数据矩阵为：

21、

22、其中，m为基因的数目，n为细胞的数目，amn代表第n个细胞表达第m个基因的次数；

23、s32、随机选取p个有代表性的数据点，并记为矩阵b，且矩阵b表示为：

24、a1,a1,···,ap∈rm×p；

25、其中，m为基因的数目，p为选取的细胞数目；

26、s33、原始表达矩阵可记为：c＝(a1,a2,···,an)∈rm×n，同时用矩阵分解b∈rm×n和矩阵d∈rp×n来表示，且二者的乘积近似为a；

27、s34、将b作为一组基向量，将d作为原始表达矩阵中每个数据点相对于新的基向量的p维表示；

28、s35、使用lsc方法来计算表示矩阵，使用高斯核函数来衡量ai和aj之间的相似性；

29、s36、根据d矩阵计算e表示对角矩阵，e(i,i)的值等于d矩阵中第i行的和；

30、s37、通过奇异值分解计算普拉斯矩阵的前k个特征向量，记为：

31、

32、其中，g＝(b1,b2,···,bk)；

33、s38、通过计算出h＝(c1,c2,···,ck)，h的每一行表示一个数据点，使用k-means聚类方法，得到最终聚类结果。

34、本发明进一步设置为：在步骤s4中，所述聚类分析完成后，对最终聚类结果进行评估和注释，包括以下步骤：

35、s41、对最终聚类结果进行评估；

36、s42、将转换后的矩阵利用t-sne进行可视化，得到单细胞测序数据的簇；

37、s43、对簇进行实体识别分析；

38、s44、对所获得的簇进行注释。

39、本发明进一步设置为：在步骤s41中，基于评价准则，使用数据的内在信息对聚类结果进行评估，通过计算细胞之间的参数，量化类群之间的距离和单个类群内部细胞的致密性，以评价聚类的程度。

40、本发明进一步设置为：在步骤s44中，通过将新的簇投影到参考数据集，用质心表示每个簇，计算新簇和参考数据集中已有簇的相似性，识别与新簇最为相似的簇。

41、有益效果

42、采用本发明提供的技术方案，与已知的公有技术相比，具有如下有益效果：

43、(1)本发明中，通过specter聚类方法对原始数据矩阵进行聚类分析，得到最终聚类结果，specter聚类采用了混合策略，平衡了随机抽样的效率和基于k-means的标点选择的准确性，specter方法可以检测非凸形状和线性不可分簇，聚类准确性高，极大地减少了计算复杂度，可以应用于大型单细胞数据集，specter聚类方法不是选择一组参数，而是探索不同的参数选择，并将结果聚类信息调和成一个有一致性聚类，解决了参数敏感性问题，且specter聚类方法具有稳健性，提高了聚类的准确性，该算法在实际应用中具有较高的应用价值，specter聚类能够得到合理的细胞亚群。

44、(2)本发明中，通过自然语言处理技术，对单细胞测序数据进行特征提取，得到原始数据矩阵，再构建文档向量空间模型，生成文档向量，提取文档向量中的文本特征，得到文本分类主题和特征项，对文本分类主题进行向量表达，生成原始数据矩阵，通过自然语言处理方法识别大规模文档单细胞测序数据中潜藏的语义信息，根据自然语言处理方法的结果来挖掘单细胞相关技术中的潜在信息，方便对单细胞数据潜在的信息进行分析。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴尚泽,俞容山
技术所有人：厦门大学
我是此专利的发明人

上一篇：一种白蚁远程实时自动监测装置的制作方法
上一篇：一种链轮罩盖精准定位液压夹具的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。