全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111663305.7 (22)申请日 2021.12.3 0 (71)申请人 上海聚均科技有限公司 地址 200135 上海市浦东 新区中国(上海) 自由贸易试验区罗山路15 02弄14号 (72)发明人 焦彦嘉 王义山 谷松涛 (74)专利代理 机构 上海汉声知识产权代理有限 公司 3123 6 代理人 胡晶 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/216(2020.01) G06K 9/62(2022.01) (54)发明名称 一种文本查询方法、 设备和存 储介质 (57)摘要 本申请提供了一种文本查询方法、 设备和存 储介质。 获取标准训练数据集, 基于标准训练数 据集对目标文本分类模型进行训练, 调用目标文 本分类模型, 将待分类文本输入目标文本分类模 型进行相关性匹配, 获取目标文本分类模型输出 的文本分类结果, 在待分类文本匹配至服务器后 台的情况下, 标记为待分词文本并进行分词, 得 到的分词结果中包括各分词对应的词向量; 计算 词向量与预置目标词表中的单词对应词向量模 型之间的相似度, 输出对应的类别信息。 通过本 申请提出的技术方案对登记文件进行系统全面 的查询, 能准确查询登记文件的重复登记情况, 同时可以减少重复判断误判率, 进一步地避免了 用户由于更换文本描述导致出现查询出现遗漏 的情况, 提高了查询重复登记文 件的效率。 权利要求书2页 说明书9页 附图3页 CN 114416979 A 2022.04.29 CN 114416979 A 1.一种文本查询方法, 其特 征在于, 所述的方法包括: 获取标准训练数据集, 所述训练数据集中包括正样本和负样本, 所述正样本包括预先 存储在服务器后台第一文本集合; 所述负样本包括在至少一个第三方服务器预先存储的第 二文本集 合; 基于所述标准训练数据集对目标文本分类模型进行训练; 调用所述目标文本分类模型, 将待分类文本输入所述目标文本分类模型进行相关性匹 配, 获取所述目标文本分类模型输出的文本分类结果; 根据所述文本分类结果判断所述待分类文本属于服务器后台或第 三方服务器, 在所述 待分类文本匹配至服务器后台的情况下, 标记为待分词文本并进行分词, 得到的分词 结果 中包括各分词对应的词向量; 计算所述词向量与 预置目标词表中的单词对应的词向量模型之间的相似度, 输出对应 的类别信息。 2.根据权利要求1所述的一种 文本查询方法, 其特征在于, 基于所述标准训练数据集对 目标文本分类模型进行训练包括: 基于第一损失函数获取包括所述第 一文本集合的损失值, 基于第 二损失函数获取包括 所述第二文本集 合的损失值; 基于包括所述第 一文本集合的损失值和所述包括第 二文本集合的损失值, 确定所述标 准训练数据集的损失值; 利用所述标准训练数据集的损失值, 调整所述预设Bert模型的模型参数值, 对目标文 本分类模型进行训练。 3.根据权利要求2所述的一种 文本查询方法, 其特征在于, 利用所述标准训练数据集的 损失值, 调整所述预设Ber t模型的模型参数值包括: 在所述预设Bert模型训练的基础上, 根据预设规则获取所述标准训练数据集的文本信 息的句向量、 词性向量对应更新全连接层和输出层结构的参数值, 构成调整模型; 根据损失函数对所述调整模型进行迭代训练, 计算所述参数值迭代训练过程中的损失 函数值。 4.根据权利要求3所述的一种 文本查询方法, 其特征在于, 对所述目标文本分类模型进 行训练, 包括: 在所述第一损失函数和所述第 二损失函数的数值收敛的情况下, 判断所述第 一损失函 数和所述第二损失函数的数值是否小于预设阈值; 若是, 统计所述标准训练数据集中测试文本的准确率; 在所述测试文本的所述准确率大于预设准确率的情况下, 结束训练过程, 保存模型结 构为所述目标文本分类模型。 5.根据权利要求4所述的一种 文本查询方法, 其特征在于, 根据 所述损失函数对所述调 整模型进行迭代训练包括: 在所述预设Ber t模型输出层加上Softmax函数; 将预设标注的所述训练数据集对应的特征向量以Softmax函数进行分类以获得所述损 失函数, 根据所述损失函数对所述调整模型进行迭代训练。 6.根据权利要求1所述的一种 文本查询方法, 其特征在于, 将所述待分类文本输入所述权 利 要 求 书 1/2 页 2 CN 114416979 A 2目标文本分类模型进行相关性匹配包括: 在所述待分类文本的指定位置添加分割符标识, 将添加分割符标识后的所述待查询文 本输入所述目标文本分类模型中; 根据所述目标文本分类模型对所述待分类文本与已登记文本文件进行相关性匹配度。 7.根据权利要求1所述的一种 文本查询方法, 其特征在于, 将所述待分词文本并进行分 词前包括: 根据预设文本查询词典对所述待分词文本进行文本映射。 8.根据权利要求7所述的一种 文本查询方法, 其特征在于, 将所述待分词文本并进行分 词, 得到的分词结果中包括各分词对应的词向量序列包括: 在所述文本映射为空的情况下, 将所述待分词 文本通过基于概率统计分词模型进行分 词, 得到与所述待分词文本对应的分词结果; 通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向 量序列。 9.根据权利要求1所述的一种 文本查询方法, 其特征在于, 计算所述词向量与 预置目标 词表中的单词对应词向量模型之间的相似度包括: 将所述词向量序列输入离线模型, 计算所述词向量和经过所述离线模型训练 的所述预 置目标类别词表在文本空间的文本相似度; 对所述词向量和所述预置目标类别词表基于相同词项、 词频的文本相似度, 以及在文 本空间的文本相似度进行权重计算, 得到所述词向量和所述预置目标类别词表的最 终相似 度。 10.根据权利要求9所述的一种文本查询方法, 其特征在于, 获取经过所述离线模型训 练的所述预置目标类别词表包括: 获取预训练语句进行分词获得对应的分词集, 将所述分词集利用独热编码处理获取词 向量集; 获取预训练语句对应的词语序列的中心词语, 确定所述中心词语对应的中心词向量; 将所述词向量集输入至预先训练完成的所述离线模型, 保留所述中心词语对应的中心 词向量序列为所述预置目标类别词表。 11.一种电子设备, 其特 征在于, 包括: 存储器, 所述存 储器用于存 储处理程序; 处理器, 所述处理器执行所述处理程序时实现如权利要求1至10中任意一项所述的文 本查询方法。 12.一种可读存储介质, 其特征在于, 所述可读存储介质上存储有处理程序, 所述处理 程序被处 理器执行时实现如权利要求1至10中任意 一项所述的文本查询方法。权 利 要 求 书 2/2 页 3 CN 114416979 A 3
专利 一种文本查询方法、设备和存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 04:42:44
上传分享
举报
下载
原文档
(560.5 KB)
分享
友情链接
ISO 52000-3 2023 Energy performance of buildings — Overarching EPB assessment — Part 3 General principles for determination and reporting of primary energy factors (PEF) and CO2 emission coefficients.pdf
ISO 11892 2024 Space systems Subsystems or units to spacecraft interface control document.pdf
ISO 14130 1997 Fibre-reinforced plastic composites — Determination of apparent interlaminar shear strength by short-beam method.pdf
ISO ASTM 51900 2023 Guidance for dosimetry for radiation research.pdf
ISO 725 2009 ISO inch screw threads — Basic dimensions.pdf
ISO 5690-2-1984Equipment for distributing fertilizers. Test methods. Part 2_Fertilizer distributors (1).pdf
ISO 16610-31 2016 Geometrical product specifications (GPS) — Filtration — Part 31 Robust.pdf
ISO 37301-2021 合规管理体系要求及使用指南(中文版).pdf
ISO 5647 2019 Paper and board — Determination of titanium dioxide content.pdf
ISO 22400-1 2014 Automation systems and integration — Key performance indicators (KPIs) for manufacturing operations management — Part 1 Overview, concepts and terminology.pdf
GB-T 20283-2020 信息安全技术 保护轮廓和安全目标的产生指南.pdf
GB-T 38406-2019 皮革化学品 合成鞣剂中鞣质含量的测定.pdf
GB-T 42177-2022 加氢站氢气阀门技术要求及试验方法.pdf
GB-T 12615.4-2004 封闭型平圆头抽芯铆钉 51级.pdf
GB-T 20082-2006 液压传动 液体污染 采用光学显微镜测定颗粒污染度的方法.pdf
GB-T 38174-2019 风能发电系统 风力发电场可利用率.pdf
GB-T 1621-2008 工业氯化铁.pdf
GB-T 9695.23-2008 肉与肉制品 羟脯氨酸含量测定.pdf
GB-Z 29638-2013 电气-电子-可编程电子安全相关系统的功能安全 功能安全概念及GB-T 20438系列概况.pdf
GB-T 7065-1997 纺织品 色牢度试验 耐热水色牢度.pdf
1
/
3
15
评价文档
赞助2元 点击下载(560.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。