全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211001959.8 (22)申请日 2022.08.21 (71)申请人 北京信息科技大 学 地址 100192 北京市海淀区清河小营东路 12号 申请人 北京市工程咨询有限公司 (72)发明人 张乐 涂焕霄 吕学强 夏雷  游新冬 董志安 韩晶  (51)Int.Cl. G06F 16/33(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于图卷积拓扑特征和关键词特征的 文本检索方法 (57)摘要 本发明涉及自然语言处理领域的文本检索 技术, 提升了现有方法在语义匹配上的不足, 包 括以下步骤: 围绕在工程咨询报告范围获取实验 所需数据, 每个标题标注60段文本数据; 将数据 以[CLS]标题[SEP]段落[SEP]的形式传入BERT模 型, 得到标题和段落的向量表示; 基于向量分别 构建图拓扑结构, 并利用图卷积神经网络GCN获 取全局结构特征; 针对具有上下文信息和全局特 征的向量表示, 利用排序模型得到第一个得分; 将段落对应关键词利用Word2Vec 得到向量表示, 基于余弦相似度得到第二个得分, 对两个得分加 权平均得到最终匹配结果; 训练模型并更新参 数, 在测试集上提取文本特征并进行检索。 本发 明能够提升文本 检索的准确性。 权利要求书1页 说明书4页 附图1页 CN 115329046 A 2022.11.11 CN 115329046 A 1.本发明的一种基于图卷积拓扑特征和关键词特征的文本检索方法, 其特征在于, 包 括以下步骤: (一) 、 获取实验所需数据, 包括标题数据和文本段落数据, 主要围绕在工程咨询报告范 围进行数据获取, 针对每一个标题数据标注6 0段相关文本数据; (二) 、 将每一条数据以[CLS]标题[SEP]文段[SEP]的形式传入预训练语言模型BERT, 分 别获取标题和文段的向量表示; (三) 、 针对获取的标题和文段向量, 分别构建图拓扑结构, 并利用图卷积神经网络GCN 进一步获取文本的全局结构特 征; (四) 、 针对得到的具有上下文信息和全局特征的文本词向量表示, 利用联合排序模型 得到第一个候选匹配得分; (五) 、 将段落的关键词信息利用Word2Vec模型得到向量表示, 基于余弦相似度计算方 法得到与标题的第二个候选得分, 对两个候选匹配得分通过加权平均得到标题和段落的最 终匹配得分; (六) 、 根据训练数据训练检索网络模型并更新参数, 然后在测试集上提取文本特征并 进行检索。 2.如权利要求1所述的一种基于图卷积拓扑特征和关键词特征的文本检索方法, 其特 征在于: 面向工程咨询报告, 搜集相关标题和文段数据, 并设计相关人工标注的方式完成针 对文段的关键词标注工作, 参考工程咨询报告历史文本, 构 造查询标题, 通过相似度计算和 人工标注完成对标题和段落之间的相关性标注。 3.如权利要求2所述的一种基于图卷积拓扑特征和关键词特征的文本检索方法, 其特 征在于: 针对标题和段落利用预训练语言模型BERT得到上下文表示, 进一步设计图卷积神 经网络, 提取文本的全局结构特征, 对输入的标题和段落尽可能多的提取文本的语义特征, 为下一步匹配奠定语义基础。 4.如权利要求3所述的一种基于图卷积拓扑特征和关键词特征的文本检索方法, 其特 征在于: 基于目前效果较好的神经匹配排序模型, 实现对标题和段落的匹配计算, 提升了标 题与段落匹配 计算的准确性。 5.如权利要求4所述的一种基于图卷积拓扑特征和关键词特征的文本检索方法, 其特 征在于: 引入自监 督三元组损失函数辅助车辆特 征表示学习。 6.如权利要求5所述的一种基于图卷积拓扑特征和关键词特征的文本检索方法, 其特 征在于: 针对输入的段落, 获取对应标注的关键词集, 利用Word2Vec模 型获取关键词集的向 量表示, 并利用余弦相似度计算标题和关键词集的匹配得分, 关键词作为段落文本的语义 表示特征, 其和标题的匹配得分, 可以作为段落匹配的语义信息补充。权 利 要 求 书 1/1 页 2 CN 115329046 A 2一种基于图卷积拓扑特征和关键词特征的文本检索方 法 技术领域 [0001]本发明涉及自然语言处理领域的文本检索技术, 特别涉及针对文本标题与库内段 落文本的匹配排序方法。 背景技术 [0002]文本检索任务是指依据查询文本从数据库中检索与之匹配的Top  K个文本。 最初 的文本检索仅依靠检测查询文本中的单词 是否出现在文本中, 以及基于特征 的匹配排序, 如计算文本TF ‑IDF、 利用BM25算法等, 这类方法忽略了文本的语义特征, 不能有效的提取与 查询相关的文本。 随着神经网络语言模型如循环神经网络语言模型、 长短期记忆的循环神 经网络语言模型、 前馈神经网络语言模型以及注意力机制等不断发展, 文本原始语义特征 提取得到了有效的提升。 将其应用于文本检索可以有效提升候选匹配文段的准确 性, 基于 神经网络语言模型的文本检索可以划分为基于表示的文本检索和基于交互的文本检索两 大类。 [0003]基于表示的文本检索将查询和文本作为两个单独的文本进行处理, 分别获取他们 的词向量表 示, 随后利用相似度计算公式得到候选匹配得分, 如DSSM、 LSTM ‑RNN、 duoBERT将 查询和文本映射为低维向量, 通过最大化查询与文档的相似度距离进行匹配。 DeepCT、 Coeus、 Lbl2Vec通过为文本信息 设置术语权重、 相关评 分、 标记文本主题 等方式提升文本检 索的性能。 基于交互的文本检索更注重查询和文本在匹配之前的语义交互。 如DRMM、 KNRM、 PACRR在匹配计算之前对查询和文本进行 交互, 并利用神经网络模型获取相关特征信息。 基 于交互的神经排序中的缺陷, 将具有核值模糊性的树集合和基于自适应聚类术语匹配映射 相结合。 有 方法通过引入两层递归神经网络, 进一步捕捉查询的上下文表示、 搜索任务和相 应的上下文结构。 利用图神经网络构建文本的全局词关系 结构, 捕捉更多的上下文结构和 全局结构信息。 虽然文本检索的效果在逐渐提升, 但是其语义匹配问题依旧需要进一步研 究提升。 发明内容 [0004]为解决上述技术问题, 本发明的目的是提升现有基于交互的文本检索方法在语义 匹配上的不足性, 提出了一种基于图卷积拓扑 特征和关键词特 征的文本检索方法。 [0005]本发明的一种基于图卷积拓扑特征和关键词特征的文本检索方法, 包括以下步 骤: 1、 获取实验所需数据, 包括标题数据和文本段落数据, 主要围绕在工程咨询报告 范围进行 数据获取, 针对每一个标题数据标注6 0段相关文本数据; 2、 将每一条数据以[CLS]标题[SEP]文段[SEP]的形式传入预训练语言模型BERT, 分别获取 标题和文段的向量表示; 3、 针对获取的标题和文段向量, 分别构建图拓扑结构, 并利用图卷积神经 网络GCN 进一步获取文本的全局结构特 征;说 明 书 1/4 页 3 CN 115329046 A 3

PDF文档 专利 一种基于图卷积拓扑特征和关键词特征的文本检索方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图卷积拓扑特征和关键词特征的文本检索方法 第 1 页 专利 一种基于图卷积拓扑特征和关键词特征的文本检索方法 第 2 页 专利 一种基于图卷积拓扑特征和关键词特征的文本检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。