全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211336402.X (22)申请日 2022.10.28 (71)申请人 天津大学四川创新研究院 地址 610000 四川省成 都市天府新经济产 业园B6号楼13层 (72)发明人 李国良 张也 陆嘉华 彭德华  陈建邦 江熠 陈星霖 唐善雯  张芷硕 吴蕾  (74)专利代理 机构 成都金英专利代理事务所 (普通合伙) 51218 专利代理师 郭肖凌 (51)Int.Cl. G16B 30/20(2019.01) G16B 40/00(2019.01) G16B 20/20(2019.01)G06K 9/62(2022.01) (54)发明名称 基于数值特征表达的基因组二四代融合组 装方法及系统 (57)摘要 本发明公开了基于数值特征表达的基因组 二四代融合组装 方法及系统, 该方法包括如下步 骤: S1: 读入测序文件, 进行基因解析 获得测序序 列reads的自定义编号和碱基序列; S2: 截取测序 序列reads的碱基序列, 获得质心特征值, 并生成 二代测序数据特征值矩 阵和四代测序数据特征 值矩阵; S3: 按照设定误差阈值A 搜索四代测序数 据之间相似 特征值对应的序列, 将四代测序数据 组装为基因序列骨架; S4: 按照设定误差阈值B搜 索二代测序数据和四代测序数据相似特征值对 应的序列, 将二代测序数据回帖至基因序列骨 架; S5: 输出最终组装结果和SNP信息表。 本发明 可提高涉及二四代组装和有参映射组装分析的 生物信息学分析流 程的速度。 权利要求书2页 说明书5页 附图1页 CN 115527612 A 2022.12.27 CN 115527612 A 1.基于数值特 征表达的基因 组二四代融合组装方法, 其特 征在于, 包括如下步骤: S1: 读入测序文件, 进行基因解析获得测序 序列reads的自定义编号和碱基序列; S2: 截取测序序列reads的碱基序列, 获得质心特征值, 并生成二代测序数据特征值矩 阵和四代测序数据特 征值矩阵; S3: 按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列, 将四代测序数 据组装为基因序列骨架; S4: 按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列, 将 二代测序数据回 帖至基因序列骨架; S5: 输出最终组装结果和SNP信息表。 2.如权利要求1所述的基于数值特征表达的基因组二 四代融合组装方法, 其特征在于, 步骤S1具体为: 从磁盘读入测序文件, 所述测序文件包括fasta和/或fastq文件, 并通过识 别文件标识行对测序文件进行基因解析, 获得测序 序列reads的自定义编号和碱基序列。 3.如权利要求1所述的基于数值特征表达的基因组二 四代融合组装方法, 其特征在于, 所述测序 序列reads包括 二代测序数据和四代测序数据。 4.如权利要求1所述的基于数值特征表达的基因组二 四代融合组装方法, 其特征在于, 步骤S2包括如下子步骤: S21: 按照预设长度滑动截取测序序列reads的碱基序列, 并将其映射为坐标系散点, 采 用Kmeans聚类获得质心特 征值; S22: 按照预设间隔向前滑动截取, 依次获得所截取测序序列reads碱基序列的质心特 征值, 直到该 条测序序列reads的最后一 位停止; S23: 将计算得到的一系列质心特征值作为该条测序序列reads的特征值矩阵, 所述特 征值矩阵包括 二代测序数据特 征值矩阵和四代测序数据特 征值矩阵。 5.如权利要求1所述的基于数值特征表达的基因组二 四代融合组装方法, 其特征在于, 步骤S3包括如下子步骤: S31: 将四代测序数据特 征值矩阵进行 数值快排; S32: 按照设定误差阈值A搜索四代测序数据之间相似特 征值对应的序列; S33: 将筛选出来的特 征值相似的四代测序数据组装为基因序列骨架。 6.如权利要求5所述的基于数值特征表达的基因组二 四代融合组装方法, 其特征在于, 步骤S3还 包括如下子步骤: S34: 生成读长ID, 以及读长ID在基因序列骨架中位置的对应索引表。 7.如权利要求1所述的基于数值特征表达的基因组二 四代融合组装方法, 其特征在于, 步骤S4包括如下子步骤: S41: 将二代测序数据特 征值矩阵进行 数值快排; S42: 按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列, 得到与二代读长特 征值相似的四代读长ID和该四代读长ID在基因序列骨架中的定位; S43: 将二代测序数据按照位置比对定位到基因序列骨架上进行对比, 根据比对结果, 将二代测序数据回 帖至基因序列骨架。 8.如权利要求7所述的基于数值特征表达的基因组二 四代融合组装方法, 其特征在于, 步骤S43具体为: 若重合区域超过阈值C, 则判定该二代测序数据已经回帖定位至基因序列权 利 要 求 书 1/2 页 2 CN 115527612 A 2骨架; 若重合区域低于阈值C, 则判定该二代测序数据不能回帖至基因序列骨架, 此时, 需要 缩小阈值C, 进行 下一轮搜索回 帖。 9.基于数值特征表达的基因组二四代融合组装系统, 用以实现权利要求1~8任意一项 所述的基于数值特征表达的基因组二四代融合组装方法, 其特征在于, 包括读取模块、 截取 模块、 四代测序数据搜索 模块、 二代测序数据搜索 模块和输出模块, 所述读取模块用以读入 测序文件, 进 行基因解析获得测序序列reads的自定义编号和碱基序列; 所述截取模块用以 截取测序序列reads的碱基序列, 获得质心特征值, 并生 成二代测序数据特征值矩阵和四代 测序数据特征值矩阵; 所述四代测序数据搜索模块用以按照设定误差阈值A搜索四代测序 数据之间相似特征值对应的序列, 将四代测序数据 组装为基因序列骨架; 所述二代测序数 据搜索模块用以按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的 序列, 将二代测序数据回帖至基因序列骨架; 所述输出模块用以输出最 终组装结果和SNP信 息表。权 利 要 求 书 2/2 页 3 CN 115527612 A 3

.PDF文档 专利 基于数值特征表达的基因组二四代融合组装方法及系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于数值特征表达的基因组二四代融合组装方法及系统 第 1 页 专利 基于数值特征表达的基因组二四代融合组装方法及系统 第 2 页 专利 基于数值特征表达的基因组二四代融合组装方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:43:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。