全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211109652.X (22)申请日 2022.09.13 (71)申请人 江苏先声医学诊断有限公司 地址 210023 江苏省南京市玄武区玄武大 道699-18号28幢 申请人 南京先声医学检验实验室有限公司   北京先声医学检验实验室有限公司 (72)发明人 许志晖 邓望龙 魏强 韩一辉  张超 王小强 任用 李诗濛  (51)Int.Cl. G16B 30/10(2019.01) G16B 35/20(2019.01) G16B 40/00(2019.01) G16B 50/00(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于全基因组重亚硫酸盐测序数据筛 选泛癌早筛分子标志 物的方法及系统 (57)摘要 本申请涉及生物信息学技术领域, 具体提供 一种基于全基因组重亚硫酸盐测序数据筛选泛 癌早筛分子标志物的方法及系统。 本方法基于全 基因组重亚硫酸盐测序数据, 根据癌旁样本的甲 基化水平以及肿瘤样本的肿瘤占比, 对肿瘤样本 的甲基化水平进行校正, 筛选出具有真实差异的 甲基化区间。 通过自编码模型对初筛分子标志物 进行贡献度排序, 从分子水平上评估其在肿瘤样 本与癌旁样本及白细胞中的差异精简初筛分子 标志物, 提升开发产品的准确率和经济性。 权利要求书2页 说明书7页 附图7页 CN 115424666 A 2022.12.02 CN 115424666 A 1.一种基于全基因组重亚硫酸盐测序数据筛选泛癌 早筛分子标志物的方法, 其特征在 于, 包括如下步骤: 1)获取肿瘤样本、 癌旁样本和白细胞样本的DNA甲基化测序数据; 2)基于拷贝数变异评估肿瘤样本的肿瘤占比TF; 3)校正肿瘤样本 CpG位点的甲基化水平; 4)鉴定肿瘤与癌旁及白细胞样本间的差异位 点; 5)CpG位点合并: 如果显著差异的CpG位 点在基因 组上相邻 则合并。 2.根据权利要求1所述的方法, 其特 征体在于, 所述方法进一 步包括: 6)机器学习模型对分子标志 物进行排序和过 滤; 7)结合平均甲基化差异和自编码模型分配的重要性得分对分子标志物重新排序, 选取 优先级高的分子标志 物形成最终panel。 3.根据权利要求1 ‑2任一所述的方法, 其特征体在于, 所述步骤1)中进一步包括, 测序 数据使用比对到人类hg19参 考基因组上, 去除PCR重复和比对质量低的reads。 4.根据权利要求1 ‑3任一所述的方法, 其特征体在于, 所述步骤2)进一步包括, 剔除肿 瘤占比较低的样本; 优选的, 所述肿瘤占比较低的样本为肿瘤占比低于15%的样本 。 5.根据权利要求1 ‑4任一所述的方法, 其特 征在于, 所述 步骤3)具体为: a)计算所有癌旁样本的CpG位 点的甲基化水平的平均值(Mi,norm); b)计算每 个肿瘤样本的亚克隆占比s, 所述s计算如下: 其中, CNA为基因 组拷贝数变异数, c为肿瘤 细胞倍性值, TF为步骤2)评估的肿瘤占比; c)计算肿瘤样本 CpG位点的真实甲基化水平Mi,pure, 所述Mi,pure计算如下: 其中, Mi,obs是实验得到的肿瘤样本每 个CpG位点的甲基化水平。 6.根据权利要求1 ‑5任一所述的方法, 其特 征体在于, 所述 步骤4)具体为: a)计算所有肿瘤样本的CpG位 点甲基化水平的平均值, 过 滤覆盖度较低的CpG位 点; b)选取肿瘤样本、 癌旁样本、 白细胞样本的 甲基化差异均有显著差异的CpG位 点。 7.根据权利要求6所述的方法, 其特征体在于, 所述步骤4)中覆盖度较低的CpG位点为 覆盖度<50的CpG位 点; 所述显著差异的CpG位 点为甲基化差异>0.6的位 点。 8.根据权利要求1 ‑7任一所述的方法, 其特 征体在于, 所述 步骤6)具体包括: a)计算分子标志 物在reads水平上的 甲基化得分; b)癌旁样本和肿瘤样本分为训练和 测试样本, 采用5折交叉验证训练自编码模型; c)测试样本代入训练好的模型, 对各 特征分配重要性得分, 对特 征重新排序。 优选的, 所述所述机器学习模型的结构如下: 输入层网络结构为线性层, 输入维度为n; 标准层共4层, 前两层为编码器, 后两层为解码器; 输出维度为n; 该模型通过修改模型的深 度和参数使输入和输出保持一 致; 所述n为筛选出的差异甲基化区间的数量。 9.一种电子设备, 其特征在于, 包括: 处理器和存储器; 所述处理器和存储器相连, 其 中, 所述存储器用于存储计算机程序, 所述处理器用于调用所述计算机程序, 以执行如权利权 利 要 求 书 1/2 页 2 CN 115424666 A 2要求1‑7任一项所述的方法。 10.一种计算机存储介质, 其特征在于, 所述计算机存储介质存储有计算机程序, 所述 计算机程序包括程序指 令, 所述程序指 令当被处理器执行时, 执行如权利要求 1‑7任一项所 述的方法。权 利 要 求 书 2/2 页 3 CN 115424666 A 3

.PDF文档 专利 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 第 1 页 专利 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 第 2 页 专利 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:09:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。