全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111663305.7 (22)申请日 2021.12.3 0 (71)申请人 上海聚均科技有限公司 地址 200135 上海市浦东 新区中国(上海) 自由贸易试验区罗山路15 02弄14号 (72)发明人 焦彦嘉 王义山 谷松涛  (74)专利代理 机构 上海汉声知识产权代理有限 公司 3123 6 代理人 胡晶 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/216(2020.01) G06K 9/62(2022.01) (54)发明名称 一种文本查询方法、 设备和存 储介质 (57)摘要 本申请提供了一种文本查询方法、 设备和存 储介质。 获取标准训练数据集, 基于标准训练数 据集对目标文本分类模型进行训练, 调用目标文 本分类模型, 将待分类文本输入目标文本分类模 型进行相关性匹配, 获取目标文本分类模型输出 的文本分类结果, 在待分类文本匹配至服务器后 台的情况下, 标记为待分词文本并进行分词, 得 到的分词结果中包括各分词对应的词向量; 计算 词向量与预置目标词表中的单词对应词向量模 型之间的相似度, 输出对应的类别信息。 通过本 申请提出的技术方案对登记文件进行系统全面 的查询, 能准确查询登记文件的重复登记情况, 同时可以减少重复判断误判率, 进一步地避免了 用户由于更换文本描述导致出现查询出现遗漏 的情况, 提高了查询重复登记文 件的效率。 权利要求书2页 说明书9页 附图3页 CN 114416979 A 2022.04.29 CN 114416979 A 1.一种文本查询方法, 其特 征在于, 所述的方法包括: 获取标准训练数据集, 所述训练数据集中包括正样本和负样本, 所述正样本包括预先 存储在服务器后台第一文本集合; 所述负样本包括在至少一个第三方服务器预先存储的第 二文本集 合; 基于所述标准训练数据集对目标文本分类模型进行训练; 调用所述目标文本分类模型, 将待分类文本输入所述目标文本分类模型进行相关性匹 配, 获取所述目标文本分类模型输出的文本分类结果; 根据所述文本分类结果判断所述待分类文本属于服务器后台或第 三方服务器, 在所述 待分类文本匹配至服务器后台的情况下, 标记为待分词文本并进行分词, 得到的分词 结果 中包括各分词对应的词向量; 计算所述词向量与 预置目标词表中的单词对应的词向量模型之间的相似度, 输出对应 的类别信息。 2.根据权利要求1所述的一种 文本查询方法, 其特征在于, 基于所述标准训练数据集对 目标文本分类模型进行训练包括: 基于第一损失函数获取包括所述第 一文本集合的损失值, 基于第 二损失函数获取包括 所述第二文本集 合的损失值; 基于包括所述第 一文本集合的损失值和所述包括第 二文本集合的损失值, 确定所述标 准训练数据集的损失值; 利用所述标准训练数据集的损失值, 调整所述预设Bert模型的模型参数值, 对目标文 本分类模型进行训练。 3.根据权利要求2所述的一种 文本查询方法, 其特征在于, 利用所述标准训练数据集的 损失值, 调整所述预设Ber t模型的模型参数值包括: 在所述预设Bert模型训练的基础上, 根据预设规则获取所述标准训练数据集的文本信 息的句向量、 词性向量对应更新全连接层和输出层结构的参数值, 构成调整模型; 根据损失函数对所述调整模型进行迭代训练, 计算所述参数值迭代训练过程中的损失 函数值。 4.根据权利要求3所述的一种 文本查询方法, 其特征在于, 对所述目标文本分类模型进 行训练, 包括: 在所述第一损失函数和所述第 二损失函数的数值收敛的情况下, 判断所述第 一损失函 数和所述第二损失函数的数值是否小于预设阈值; 若是, 统计所述标准训练数据集中测试文本的准确率; 在所述测试文本的所述准确率大于预设准确率的情况下, 结束训练过程, 保存模型结 构为所述目标文本分类模型。 5.根据权利要求4所述的一种 文本查询方法, 其特征在于, 根据 所述损失函数对所述调 整模型进行迭代训练包括: 在所述预设Ber t模型输出层加上Softmax函数; 将预设标注的所述训练数据集对应的特征向量以Softmax函数进行分类以获得所述损 失函数, 根据所述损失函数对所述调整模型进行迭代训练。 6.根据权利要求1所述的一种 文本查询方法, 其特征在于, 将所述待分类文本输入所述权 利 要 求 书 1/2 页 2 CN 114416979 A 2目标文本分类模型进行相关性匹配包括: 在所述待分类文本的指定位置添加分割符标识, 将添加分割符标识后的所述待查询文 本输入所述目标文本分类模型中; 根据所述目标文本分类模型对所述待分类文本与已登记文本文件进行相关性匹配度。 7.根据权利要求1所述的一种 文本查询方法, 其特征在于, 将所述待分词文本并进行分 词前包括: 根据预设文本查询词典对所述待分词文本进行文本映射。 8.根据权利要求7所述的一种 文本查询方法, 其特征在于, 将所述待分词文本并进行分 词, 得到的分词结果中包括各分词对应的词向量序列包括: 在所述文本映射为空的情况下, 将所述待分词 文本通过基于概率统计分词模型进行分 词, 得到与所述待分词文本对应的分词结果; 通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向 量序列。 9.根据权利要求1所述的一种 文本查询方法, 其特征在于, 计算所述词向量与 预置目标 词表中的单词对应词向量模型之间的相似度包括: 将所述词向量序列输入离线模型, 计算所述词向量和经过所述离线模型训练 的所述预 置目标类别词表在文本空间的文本相似度; 对所述词向量和所述预置目标类别词表基于相同词项、 词频的文本相似度, 以及在文 本空间的文本相似度进行权重计算, 得到所述词向量和所述预置目标类别词表的最 终相似 度。 10.根据权利要求9所述的一种文本查询方法, 其特征在于, 获取经过所述离线模型训 练的所述预置目标类别词表包括: 获取预训练语句进行分词获得对应的分词集, 将所述分词集利用独热编码处理获取词 向量集; 获取预训练语句对应的词语序列的中心词语, 确定所述中心词语对应的中心词向量; 将所述词向量集输入至预先训练完成的所述离线模型, 保留所述中心词语对应的中心 词向量序列为所述预置目标类别词表。 11.一种电子设备, 其特 征在于, 包括: 存储器, 所述存 储器用于存 储处理程序; 处理器, 所述处理器执行所述处理程序时实现如权利要求1至10中任意一项所述的文 本查询方法。 12.一种可读存储介质, 其特征在于, 所述可读存储介质上存储有处理程序, 所述处理 程序被处 理器执行时实现如权利要求1至10中任意 一项所述的文本查询方法。权 利 要 求 书 2/2 页 3 CN 114416979 A 3

.PDF文档 专利 一种文本查询方法、设备和存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本查询方法、设备和存储介质 第 1 页 专利 一种文本查询方法、设备和存储介质 第 2 页 专利 一种文本查询方法、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:42:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。