全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211462574.1 (22)申请日 2022.11.18 (71)申请人 山东大学 地址 264209 山 东省威海市环翠区文化西 路180号 (72)发明人 柳军涛 刘洋洋  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 赵妍 (51)Int.Cl. G16B 20/50(2019.01) G16B 25/00(2019.01) G06K 9/62(2022.01) (54)发明名称 一种癌症驱动基因识别方法、 系统、 存储介 质及设备 (57)摘要 本发明涉及驱动基因识别技术领域, 提供了 一种癌症驱动基因识别方法、 系统、 存储介质及 设备, 包括: 构建体细胞突变矩阵, 并计算每个基 因的突变分数, 结合PPI网络, 得到重要基因集 合; 生成重要基因的标准化差异表达矩阵, 并计 算每个重要基因的差异表达分数; 构建基因差异 表达网络; 将在基因差异表达网络和PPI网络中 均存在连边的成对基因挑选出来, 并将与成对基 因中的至少一个基因存在连边的基因, 作为成对 基因的邻居; 基于成对基因及其邻居的突变分数 和差异表达分数, 计算成对基因的得分; 对成对 基因的得分进行拆 分, 得到每个重要基因是癌症 驱动基因的得分。 解决了目前驱动基因识别算法 对于PPI网络信息利用的不充分的缺 点。 权利要求书2页 说明书11页 附图1页 CN 115497563 A 2022.12.20 CN 115497563 A 1.一种癌症驱动基因识别方法, 其特 征在于, 包括: 获取癌症体细胞突变数据, 构建体细胞突变矩阵, 并计算每 个基因的突变分数; 基于体细胞突变矩阵, 结合PPI网络, 得到肿瘤样本基因表达矩阵和正常样本基因表达 矩阵, 并通过双维度排序融合方法, 得到 重要基因集 合; 生成重要基因的标准 化差异表达矩阵, 并计算每 个重要基因的差异 表达分数; 基于重要基因集 合, 构建基因差异 表达网络; 将在基因差异表达网络和PPI网络中均存在连边的成对基因挑选出来, 并将在基因差 异表达网络或PPI网络中与成对基因中的至少一个基因存在连边的基因, 作为成对基因的 邻居; 基于成对基因及其邻居的突变分数和差异 表达分数, 计算挑选出的成对基因的得分; 对成对基因的得分进行拆分, 得到每 个重要基因是癌症驱动基因的得分。 2.如权利要求1所述的一种癌症驱动基因识别方法, 其特 征在于, 基因 的突变分数为: 其中,aij表示第j个样本的第 i个基因的体细胞突变数据, n表示样本数量, 表示基 因i在所有样本中突变的次数, 表示样本 j中突变基因的集 合,gene k指代第k个基因。 3.如权利要求1所述的一种癌症驱动基因识别方法, 其特征在于, 在双维度排序融合方 法中, 第一维度选择基因在PPI网络中的最大权重, 第二个维度选择基因的差异表达程度, 分别按照第一维度和 第二个维度筛选出一个基因组成集合, 并将两个基因组成集合的并集 作为重要基因集 合。 4.如权利要求1所述的一种癌症驱动基因识别方法, 其特征在于, 所述标准化后的差异 表达矩阵为: 其中, , , , , 为重要基因的差异表达矩阵中的第 i行第j列的元素, 为重要基因 的差异表达矩阵中的第 i行, 表示重要基因 的数量,n表示样本数量, l表示 重要基因候选者对应的样本数量。 5.如权利要求1所述的一种癌症驱动基因识别方法, 其特征在于, 所述基因差异表达网 络符合幂律分布。 6.如权利要求1所述的一种癌症驱动基因识别方法, 其特征在于, 所述成对基因 的得分 为成对基因的MPE E分数与成对基因的MPM E分数的乘积。权 利 要 求 书 1/2 页 2 CN 115497563 A 27.如权利要求1所述的一种癌症驱动基因识别方法, 其特征在于, 每个重要基因是癌症 驱动基因的得分为: 其中, 表示在所有成对基因 P中与基因 i相互作用的基因, 为基因i的拆分权重, 为基因i和基因j构成的成对基因的得分。 8.一种癌症驱动基因识别系统, 其特 征在于, 包括: 突变分数计算模块, 其被配置为: 获取癌症体细胞突变数据, 构建体细胞突变矩阵, 并 计算每个基因的突变分数; 重要基因筛选模块, 其被配置为: 基于体细胞突变矩阵, 结合PPI网络, 得到肿瘤样本基 因表达矩阵和正常样本基因表达矩阵, 并通过双维度排序融合方法, 得到 重要基因集 合; 差异表达矩阵生成模块, 其被配置为: 生成重要基因 的标准化差异表达矩阵, 并计算每 个重要基因的差异 表达分数; 差异表达网络构建模块, 其被 配置为: 基于 重要基因集 合, 构建基因差异 表达网络; 成对基因挑选模块, 其被配置为: 将在基因差异表达网络和PPI网络中均存在连边的成 对基因挑选出来, 并将在基因差异表达网络或PPI网络中与成对基因中的至少一个基因存 在连边的基因, 作为成对基因的邻居; 成对基因得分计算模块, 其被配置为: 基于成对基因及其邻居的突变分数和差异表达 分数, 计算挑选出的成对基因的得分; 驱动基因识别模块, 其被配置为: 对成对基因的得分进行拆分, 得到每个重要基因是癌 症驱动基因的得分。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行时实现如权利要求1 ‑7中任一项所述的一种癌症驱动基因识别方法中的步骤。 10.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的一 种癌症驱动基因识别方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115497563 A 3

.PDF文档 专利 一种癌症驱动基因识别方法、系统、存储介质及设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种癌症驱动基因识别方法、系统、存储介质及设备 第 1 页 专利 一种癌症驱动基因识别方法、系统、存储介质及设备 第 2 页 专利 一种癌症驱动基因识别方法、系统、存储介质及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:42:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。