全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211015806.9 (22)申请日 2022.08.24 (71)申请人 云南电网有限责任公司信息中心 地址 650000 云南省昆明市拓东路73号 (72)发明人 汤力 杨震乾 梁国迪 潘媛  (74)专利代理 机构 安徽智联芯知识产权代理事 务所(普通 合伙) 34237 专利代理师 刘书宇 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 16/383(2019.01) G06F 16/55(2019.01) G06F 16/583(2019.01) G06F 40/194(2020.01)G06F 40/30(2020.01) (54)发明名称 一种基于图文多模态融合的文档片段语义 相似度判定算法 (57)摘要 本发明涉及相似度判定领域, 具体为一种基 于图文多模态融合的文档片段语义相似度判定 算法, 其包括以下步骤: S1、 对库中的文档和图片 进行多模态融合; S2、 输入待判断的文档片段; S3、 对文档片段进行自动分类标记, 同时进行文 档的向量化表征; S4、 对文档的分类标记进行图 片检索, 得到相似度a, 对向量化表征进行文档检 索, 得到相似度b; S5、 根据结合规则对相似度a和 相似度b进行整合, 得到最终的文档片段语义相 似度判定数值。 本发明中, 结合对待检测文档片 段的分类标记和向量化表征, 分别进行图片检索 和文档检索, 基于图文多模态融合, 有效扩大了 文档片段语义相似度判定的检索范围, 提高了相 似度判定的准确性。 权利要求书1页 说明书3页 附图2页 CN 115391478 A 2022.11.25 CN 115391478 A 1.一种基于 图文多模态融合的文档片段语义相似度判定算法, 其特征在于, 包括以下 步骤: S1、 对库中的文档和图片进行多模态融合; S2、 输入待判断的文档片段; S3、 对文档片段进行自动分类标记, 给予文档一个或多个类别标记, 同时进行文档的向 量化表征; S4、 对文档的分类标记进行图片检索, 得到相似度a, 对向量化表征进行文档检索, 得到 相似度b; S5、 根据结合规则对相似度a和相似度b进行整合, 得到最终的文档片段语义相似度判 定数值。 2.根据权利要求1所述的基于图文多模态融合的文档片段语义相似度判定算法, 其特 征在于, S1中, 多模态融合包括图片的文本标注提取、 图片中字样识别和提取、 图片分类标 记、 文档向量 化表征、 文档分类标记和文档图片相似匹配。 3.根据权利要求1所述的基于图文多模态融合的文档片段语义相似度判定算法, 其特 征在于, S3中, 文本分类方法包括: KN N法、 SVM法、 VSM法或Bayes法。 4.根据权利要求1所述的基于图文多模态融合的文档片段语义相似度判定算法, 其特 征在于, S 3中, 向量化表征方法为平均池化或最大池化, 平均池化对表征的矩阵整体进 行平 均池化, 得到向量, 最大池化对表征的矩阵整体进行最大池化, 得到向量。 5.根据权利要求1所述的基于图文多模态融合的文档片段语义相似度判定算法, 其特 征在于, S4中, 图片检索 主要检索与文档分类标记相似或相同的图片分类标记; 文档检索通 过最近邻向量索引完成, 最近邻向量索引方法为基于树的annoy和基于图的hnsw, 图片中文 本标注和图中的文字 字样同样参与到文档检索中。 6.根据权利要求1所述的基于图文多模态融合的文档片段语义相似度判定算法, 其特 征在于, S5中, 罗列相似度匹配 检索到的图片和文档。 7.根据权利要求1所述的基于图文多模态融合的文档片段语义相似度判定算法, 其特 征在于, 所述文档片段语义相似度判定系统包括多模态融合模块、 文档标记模块、 向量化表 征模块、 最近邻向量索引模块、 图片分类标记模块、 图片检索相似度判定模块、 文档检索相 似度判定模块和最终相似度判定模块; 多模块融合模块用来将文档信息和图片信息进 行融 合; 文档标记模块用来对待判定文档进行分类标记; 向量化表征模块用来对待检测文档片 段进行向量化表述; 最近邻向量索引模块用来根据向量化表征模块输出的向量在文本库中 寻找相似或相同的文档向量; 图片分类标记模块用来对库中的图片进行分类标记, 并提取 图片相关的文档标注和图片 中的文字信息, 得到与图片相关的文档信息, 图片相关的文档 信息与图片一一对应, 图片相关的文档信息归入库中文档内, 参与到 向量化表征 的文档检 索中; 图片检索相似度判定模块用来对文档的分类标记进行图片检索, 得到相似度a; 文档 检索相似度判定模块用来对向量化表征进 行文档检索, 得到相似度b; 最 终相似度判定模块 用来结合相似度a和相似度b得 出最终相似度数值。权 利 要 求 书 1/1 页 2 CN 115391478 A 2一种基于图文多模 态融合的文档片段 语义相似度判定算法 技术领域 [0001]本发明涉及相似度判定领域, 尤其涉及一种基于图文多模态融合的文档片段语义 相似度判定算法。 背景技术 [0002]今年来, 随着互联网上海量图文的积聚, 能够有效地组织这些 图文数据和准确搜 到相关图文成为一个重要的研究课题。 很多场合都需要对文档片段的相似度进行检索判 断, 例如典型的论文查重。 现有的文档片段语义相似度判定多通过文档检索的方式, 存在一 定局限性, 因为有很多图片同样披露了相关文档, 例如图片的文档标注, 图片 中的字样等, 这就造成文档片段语义相似度判定时的检索范围不够合理, 从而影响最终的相似度判定 。 发明内容 [0003]本发明目的是针对背景技术中存在的文档片段语义相似度判定存在局限性的问 题, 提出一种基于图文 多模态融合的文档片段语义相似度判定算法。 [0004]一方面, 本发明提出一种基于图文多模态融合的文档片段语义相似度判定算法, 包括以下步骤: [0005]S1、 对库中的文档和图片进行多模态融合; [0006]S2、 输入待判断的文档片段; [0007]S3、 对文档 片段进行自动分类标记, 给予文档一个或多个类别标记, 同时进行文档 的向量化表征; [0008]S4、 对文档的分类标记进行图片检索, 得到相似度a, 对向量化表征进行文档检索, 得到相似度b; [0009]S5、 根据结合规则对相似度a和相似度b进行整合, 得到最终的文档片段语义相似 度判定数值。 [0010]优选的, S1中, 多模态融合包括图片的文本标注提取、 图片中字样识别和提取、 图 片分类标记、 文档向量 化表征、 文档分类标记和文档图片相似匹配。 [0011]优选的, S3中, 文本分类方法包括: KN N法、 SVM法、 VSM法或Bayes法。 [0012]优选的, S3中, 向量化表征方法为平均 池化或最大池化, 平均 池化对表征的矩阵整 体进行平均池化, 得到向量, 最大池化对表征的矩阵整体进行最大池化, 得到向量。 [0013]优选的, S4中, 图片检索主要检索与文档分类标记相似或相同的图片分类标记; 文 档检索通过最近邻向量索引完成, 最近邻向量索引方法为基于树的annoy和基于图的hnsw, 图片中文本标注和图中的文字 字样同样参与到文档检索中。 [0014]优选的, S5中, 罗列相似度匹配 检索到的图片和文档。 [0015]另一方面, 本发明提出一种基于图文多模态融合的文档片段语义相似度判定算法 的文档片段语义相似度判定系统, 包括多模态融合模块、 文档标记模块、 向量化表征模块、 最近邻向量索引模块、 图片分类标记模块、 图片检索相似度判定模块、 文档检索相似度判定说 明 书 1/3 页 3 CN 115391478 A 3

PDF文档 专利 一种基于图文多模态融合的文档片段语义相似度判定算法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图文多模态融合的文档片段语义相似度判定算法 第 1 页 专利 一种基于图文多模态融合的文档片段语义相似度判定算法 第 2 页 专利 一种基于图文多模态融合的文档片段语义相似度判定算法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。