(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111676823.2
(22)申请日 2021.12.31
(65)同一申请的已公布的文献号
申请公布号 CN 114388063 A
(43)申请公布日 2022.04.22
(73)专利权人 深圳承启生物科技有限公司
地址 518100 广东省深圳市龙华区民治街
道樟坑社区青创城C 栋3A3
(72)发明人 刘婉婷 张弓 余卓
(51)Int.Cl.
G16B 35/20(2019.01)
G16B 20/50(2019.01)
G16B 20/30(2019.01)
G16B 20/20(2019.01)
G06K 9/62(2022.01)(56)对比文件
CN 10913 6370 A,2019.01.04
CN 109841280 A,2019.0 6.04
CN 112359110 A,2021.02.12
CN 109949864 A,2019.0 6.28
CN 111584085 A,2020.08.25
US 20140 66319 A1,2014.0 3.06
US 20201795 34 A1,2020.0 6.11
审查员 周锦
(54)发明名称
与肿瘤细胞恶性表型关联的非差异基因及
其筛选方法和应用
(57)摘要
本申请属于生物信息学技术领域, 公开了一
种与肿瘤细胞恶性表型关联的非差异基因及其
筛选方法和应用, 所述非差异 基因与癌变组织的
多个差异 基因相互作用, 且在癌变组织和癌旁组
织中普遍存在, 具有较高丰度表达和无差异表
达, 以及在网络通路中扮演重角色的特点。 通过
用于区分癌变组织和癌旁组织的SVM模 型对待区
分基因进行排序, 取排序前5%位置的基因剔除差
异基因, 即得所述非差异基因。 以所述非差异基
因作为靶点, 可用于制备预防或治疗与所述非差
异基因相关肿瘤的药物。 无论是敲低所述非差异
基因作为预防肿瘤, 还是成瘤后敲低作为控制肿
瘤发展, 本申请筛选的非差异 基因均可抑制小鼠
肿瘤大小。
权利要求书1页 说明书14页
序列表1页 附图4页
CN 114388063 B
2022.11.29
CN 114388063 B
1.一种与肿瘤细胞恶性表型关联的非差异基因的筛选方法, 其特征在于, 从SRA数据库
下载编号ERP001058的75对肺腺癌/癌 旁标本的mRNA序列数据, 以该75对150例肺腺癌与癌
旁临床组织 为样本, 进行非差异基因的筛 选, 具体过程 为:
①将75对肺腺癌/癌旁标本的mRNA序列通过软件SRA Toolkit v2.8.2使用参数split
files转换为FASTQ格式, 使用测序比对算法FANSe将第一端映射到转录组参考序列hg19, 误
差为6%, 通过rpkM方法对基因进行定量;
mRNA序列的数量用n表示, 而在第n个mRNA序列中具有大于或等于0.1rpkM值的基因的
数量用m表示; 如果一个基因的rpkM值低于δ值, δ=60, 即m应大于n的60%, 则该基因被保
留, 以类似方式, 当基因包含的p值小于δ数时, 基因被删除; p值由 “edgeR”Bioconductor软
件包根据mRNA读取计数计算得 出; 然后, 将相应的负对数p值作为rpkM数据库的权 重分配;
②采用SVM模型系数通过对150个癌旁和癌旁样本处理后的mRNA序列进行随机抽样, 每
次抽取50个样本, 经过1000次循环训练后确定了SVM模型, 参数为C ‑classification, 核型
为linear kernel;
③利用确定的SVM模型, 另外进行100次随机抽样, 每次抽取50个样本, 确定每一个基因
在SVM模型中的ω值; 根据各次采样数据中基因在各个样本中表达量的均值、 标准差和对应
的ω值, 确定了各支持向量机算法对应的σ ω值, 即用来排列基因重要性的数值; 根据σ ω值
对保留的癌旁和癌旁基因进行排序;
④将作为样本的75对肺腺癌/癌旁标本 的mRNA序列数据放入GWRS+GWGS模型计算差异
基因, 得到 差异基因排序;
其中, 整合分析 方法GWGS+GWRS为:
S1对不同单中心基因测序数据进行评测, 按照 基因表达量的显著程度, 采用式(1)所示
算法GWRS对每 个基因赋予不同的数值:
GWRS:
式中, rij表示在第j微阵列中的第 i个基因的rank值, 其中i=1~m, j=1~n, sij的范围
在0~‑2log(1/m)之间, m和n 为非零自然数;
S2输入上述不同单中心基因的计算结果, 利用GWGS算法进行整合分析, 生成一组跨越
多中心数据的基因表达数据:
GWGS:
式中,
为全基因 组全局显著性, ωj表示第j微阵列的相对重要性;
⑤将③中SVM模型排序前5%的重要性基因与 ④中差异基因比较, 得到两组基因, 将两
组基因混合投入KEGG富集分析, 并生成网络, 再对网络进行重要节点和联通度确定作为重
要节点的基因即为非差异基因, 根据节点重要性选择出四个非差异基因, 分别为ACTR1A、
GSK3A、 PPP1CC和RAC1。权 利 要 求 书 1/1 页
2
CN 114388063 B
2与肿瘤细胞恶性表型关联的非差异 基因及其筛选方 法和应用
技术领域
[0001]本申请属于生物信息学技术领域, 涉及肿瘤的靶向基因, 特别是与肿瘤细胞恶性
表型关联的非差异基因及其筛 选方法和应用。
背景技术
[0002]从精准医学和转化医学的角度, 寻找癌症较为共同且关键性强的致癌生物大分子
(包括核酸和蛋白质), 是提升治疗效果的核心, 然而, 现有的关键基因难以满足共同、 关键
的要求。 以突变率极高的肺腺癌为例, 公认的形成肺腺癌的 “元凶”为驱动基因, 例如明星驱
动基因EGFR、 ALK等, 针对这些驱动基因的靶向药物对肺腺癌有一定的治疗作用, 但效果仍
不理想。 以EGFR突变靶向治疗肺腺癌晚期病人为例, 在137例患者中, 仅有14.6%患者度过
五年生存期(Lin JJ,Cardarella S,Lydon CA,Dahlberg SE,Jackman DM,Janne PA,et
al.Five‑Year Survival in EGFR‑Mutant Metastatic Lung Adenocarc inoma Treated
with EGFR‑TKIs.Journal of thoracic oncology:offi cial publication of the
International Association for the Study of Lu ng Cancer.2016; 11(4):556 ‑65.)。
近期研究表明仍有30~50%的肺腺癌患者不具备靶向药物干预靶点, 无法使用靶向药物治
疗(Saito M,S hiraishi K,Kunitoh H,Takenoshita S,Yokota J,Kohno T.Gene
aberrations for precision medicine against lung adenocarcinoma.Cancer
science.2016; 107(6):713 ‑20)。 总结现有技术研究结果, 诊疗不尽如人意的原因主要在
于: 诊断方面, 70~80%的肺腺癌患者在确诊时已是中晚期, 失去了治疗的最佳时机; 治疗
方面, 由于肺腺癌异质性高, 靶点各异, 又由于肿瘤具备基因组不稳定性的特点, 易于发生
各种突变, 因此可将靶点突变而逃避靶向治疗的杀伤, 因此靶向治疗最终会失效而致无药
可用。 各种治疗手段都有应用局限性, 造成中晚期肺腺癌治疗效果 不理想。
[0003]在各种组学技术(包括基因组学、 转录组学、 蛋白质组学等)高度发展的今天, 从数
据中寻找共同特异的差异基因一直作为主流分析思路用来寻找癌症关键分子, 但是由于癌
症的异质性高、 通路众多、 突变频繁而导致发现在治疗上具备长效作用的共同特异的差异
基因变得很困难。 因此, 需要突破传统分析方法的 限制, 提供一种与肿瘤相关的基因筛选策
略。
发明内容
[0004]为了克服现有技术中以差异基 因作为靶点异质性高的缺陷, 本申请从与肿瘤相关
的非差异基因中搜寻共同的关键分子, 以该非差异基因作为靶点用于预防或治疗肿瘤。
[0005]本申请的目的之一在于提供一种基于肿瘤细胞恶性表型(增殖和迁移)的关键非
差异基因, 以该非差异基因作为靶点用于预防或治疗肿瘤。
[0006]本申请的第二目的在于, 提供了所述非差异基因作为癌症关键分子 的筛选方法,
通过用于区分癌变组织和 癌旁组织的SVM模型对待区分基因进 行排序, 取排序前5%位置的
基因剔除差异基因, 既得 所述非差异基因。说 明 书 1/14 页
3
CN 114388063 B
3
专利 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 22:44:21上传分享