专利一种文本查询方法、设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111663305.7 (22)申请日 2021.12.3 0 (71)申请人上海聚均科技有限公司地址 200135 上海市浦东新区中国(上海) 自由贸易试验区罗山路15 02弄14号 (72)发明人焦彦嘉　王义山　谷松涛　 (74)专利代理机构上海汉声知识产权代理有限公司 3123 6 代理人胡晶 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/216(2020.01) G06K 9/62(2022.01) (54)发明名称一种文本查询方法、设备和存储介质 (57)摘要本申请提供了一种文本查询方法、设备和存储介质。获取标准训练数据集，基于标准训练数据集对目标文本分类模型进行训练，调用目标文本分类模型，将待分类文本输入目标文本分类模型进行相关性匹配，获取目标文本分类模型输出的文本分类结果，在待分类文本匹配至服务器后台的情况下，标记为待分词文本并进行分词，得到的分词结果中包括各分词对应的词向量；计算词向量与预置目标词表中的单词对应词向量模型之间的相似度，输出对应的类别信息。通过本申请提出的技术方案对登记文件进行系统全面的查询，能准确查询登记文件的重复登记情况，同时可以减少重复判断误判率，进一步地避免了用户由于更换文本描述导致出现查询出现遗漏的情况，提高了查询重复登记文件的效率。权利要求书2页说明书9页附图3页 CN 114416979 A 2022.04.29 CN 114416979 A 1.一种文本查询方法，其特征在于，所述的方法包括：获取标准训练数据集，所述训练数据集中包括正样本和负样本，所述正样本包括预先存储在服务器后台第一文本集合；所述负样本包括在至少一个第三方服务器预先存储的第二文本集合；基于所述标准训练数据集对目标文本分类模型进行训练；调用所述目标文本分类模型，将待分类文本输入所述目标文本分类模型进行相关性匹配，获取所述目标文本分类模型输出的文本分类结果；根据所述文本分类结果判断所述待分类文本属于服务器后台或第三方服务器，在所述待分类文本匹配至服务器后台的情况下，标记为待分词文本并进行分词，得到的分词结果中包括各分词对应的词向量；计算所述词向量与预置目标词表中的单词对应的词向量模型之间的相似度，输出对应的类别信息。 2.根据权利要求1所述的一种文本查询方法，其特征在于，基于所述标准训练数据集对目标文本分类模型进行训练包括：基于第一损失函数获取包括所述第一文本集合的损失值，基于第二损失函数获取包括所述第二文本集合的损失值；基于包括所述第一文本集合的损失值和所述包括第二文本集合的损失值，确定所述标准训练数据集的损失值；利用所述标准训练数据集的损失值，调整所述预设Bert模型的模型参数值，对目标文本分类模型进行训练。 3.根据权利要求2所述的一种文本查询方法，其特征在于，利用所述标准训练数据集的损失值，调整所述预设Ber t模型的模型参数值包括：在所述预设Bert模型训练的基础上，根据预设规则获取所述标准训练数据集的文本信息的句向量、词性向量对应更新全连接层和输出层结构的参数值，构成调整模型；根据损失函数对所述调整模型进行迭代训练，计算所述参数值迭代训练过程中的损失函数值。 4.根据权利要求3所述的一种文本查询方法，其特征在于，对所述目标文本分类模型进行训练，包括：在所述第一损失函数和所述第二损失函数的数值收敛的情况下，判断所述第一损失函数和所述第二损失函数的数值是否小于预设阈值；若是，统计所述标准训练数据集中测试文本的准确率；在所述测试文本的所述准确率大于预设准确率的情况下，结束训练过程，保存模型结构为所述目标文本分类模型。 5.根据权利要求4所述的一种文本查询方法，其特征在于，根据所述损失函数对所述调整模型进行迭代训练包括：在所述预设Ber t模型输出层加上Softmax函数；将预设标注的所述训练数据集对应的特征向量以Softmax函数进行分类以获得所述损失函数，根据所述损失函数对所述调整模型进行迭代训练。 6.根据权利要求1所述的一种文本查询方法，其特征在于，将所述待分类文本输入所述权　利　要　求　书 1/2 页 2 CN 114416979 A 2目标文本分类模型进行相关性匹配包括：在所述待分类文本的指定位置添加分割符标识，将添加分割符标识后的所述待查询文本输入所述目标文本分类模型中；根据所述目标文本分类模型对所述待分类文本与已登记文本文件进行相关性匹配度。 7.根据权利要求1所述的一种文本查询方法，其特征在于，将所述待分词文本并进行分词前包括：根据预设文本查询词典对所述待分词文本进行文本映射。 8.根据权利要求7所述的一种文本查询方法，其特征在于，将所述待分词文本并进行分词，得到的分词结果中包括各分词对应的词向量序列包括：在所述文本映射为空的情况下，将所述待分词文本通过基于概率统计分词模型进行分词，得到与所述待分词文本对应的分词结果；通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向量序列。 9.根据权利要求1所述的一种文本查询方法，其特征在于，计算所述词向量与预置目标词表中的单词对应词向量模型之间的相似度包括：将所述词向量序列输入离线模型，计算所述词向量和经过所述离线模型训练的所述预置目标类别词表在文本空间的文本相似度；对所述词向量和所述预置目标类别词表基于相同词项、词频的文本相似度，以及在文本空间的文本相似度进行权重计算，得到所述词向量和所述预置目标类别词表的最终相似度。 10.根据权利要求9所述的一种文本查询方法，其特征在于，获取经过所述离线模型训练的所述预置目标类别词表包括：获取预训练语句进行分词获得对应的分词集，将所述分词集利用独热编码处理获取词向量集；获取预训练语句对应的词语序列的中心词语，确定所述中心词语对应的中心词向量；将所述词向量集输入至预先训练完成的所述离线模型，保留所述中心词语对应的中心词向量序列为所述预置目标类别词表。 11.一种电子设备，其特征在于，包括：存储器，所述存储器用于存储处理程序；处理器，所述处理器执行所述处理程序时实现如权利要求1至10中任意一项所述的文本查询方法。 12.一种可读存储介质，其特征在于，所述可读存储介质上存储有处理程序，所述处理程序被处理器执行时实现如权利要求1至10中任意一项所述的文本查询方法。权　利　要　求　书 2/2 页 3 CN 114416979 A 3

专利 一种文本查询方法、设备和存储介质

专利一种文本查询方法、设备和存储介质