全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210904526.7 (22)申请日 2022.07.29 (71)申请人 宁波深擎信息科技有限公司 地址 315000 浙江省宁波市镇海区福业 街 55号 申请人 上海深擎信息科技有限公司 (72)发明人 丑晓慧 许冠宇  (74)专利代理 机构 长沙国科天河知识产权代理 有限公司 432 25 专利代理师 段盼姣 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称 一种智能标签生成方法、 装置、 计算机设备 和存储介质 (57)摘要 本申请涉及一种智能标签生成方法、 装置、 计算机设备和存储介质。 所述方法包括: 对过滤 文本进行分词计算和文本长短判断, 根据判断结 果对过滤文本进行分词权重计算和关键词权重 计算, 根据得到的词权重从过滤文本中进行关键 词提取, 基于深度学习BERT模型对提取到的关键 词进行歧义词判断, 利用判断结果和预先设置的 词库规则进行标签特征词关联匹配, 采用权重加 和算法对初始标签进行权重加和计算, 根据预先 设置的规则对候选标签进行标签筛选, 并对筛选 后的标签进行权重缩放计算, 基于badcase和先 验知识设置规则词库, 根据规则词库对缩放后的 标签进行互斥标签处理, 得到最终标签。 采用本 方法能够提高标签生成系统鲁棒 性。 权利要求书2页 说明书9页 附图3页 CN 115269842 A 2022.11.01 CN 115269842 A 1.一种智能标签生成方法, 其特 征在于, 所述方法包括: 获取资讯文本; 将所述资 讯文本进行文本清洗和正则筛 选, 得到过 滤文本; 对所述过滤文本进行分词计算和文本长短判断, 根据判断结果对所述过滤文本进行分 词权重计算和关键词权 重计算, 得到词权 重; 根据所述词权重从所述过滤文本中进行关键词提取, 基于深度 学习BERT模型对提取到 的关键词进行歧义词判断, 利用判断结果和预先设置的词库规则进行标签特征词关联匹 配, 得到初始标签; 采用权重加和算法对初始标签进行权 重加和计算, 得到候选标签; 根据预先设置的规则对所述候选标签进行标签筛选, 并对筛选后的标签进行权重缩放 计算, 得到缩放后的标签; 基于badcase和先验知识设置规则词库, 根据所述规则词库对所述缩放后的标签进行 互斥标签处 理, 得到最终标签。 2.根据权利要求1所述的方法, 其特征在于, 对所述过滤文本进行分词计算和文本长短 判断, 根据判断结果对所述过滤文本进 行分词权重计算和关键词权重计算, 得到词权重,包 括: 根据分词工具将所述过滤文本进行分词, 对所述分词后的过滤文本的长短进行判断, 若分词后的过 滤文本为短文本, 则按照词汇顺序进行权 重计算, 得到词权 重; 若分词后的过滤文本为长文本, 则根据textrank算法对分词后的过滤文本中的词进行 关键词权 重计算,得到词权 重。 3.根据权利要求1所述的方法, 其特征在于, 基于深度学习BERT模型对提取到的关键词 进行歧义词判断, 利用判断结果和预先设置的词库规则进行标签特征词关联匹配, 得到初 始标签,包括: 基于深度 学习BERT模型对提取到的关键词进行分类处理, 将通用概念的关键词判定为 歧义词, 若关键词为歧义词, 则并利用结合上下文语义对提取到的关键词进行消歧处理, 得 到消歧后的关键词; 根据预先设置的词库规则对消歧后的关键词进行标签特征词关联匹配, 得到初始标 签; 若关键词不为歧义词, 则根据预先设置的词库规则对关键词进行标签特征词关联匹 配, 得到初始标签。 4.根据权利要求1至3任意一项所述的方法, 其特征在于, 将所述资讯文本进行文本清 洗和正则筛 选, 得到过 滤文本, 包括: 将所述资讯文本中的HTML格 式进行清除, 繁简统一, 全角半角符号统一, 得到清洗后的 文本; 对所述清洗后的文本中具备命名规律的标题设计正则表, 通过标题判断不同类型的资 讯, 进入不同的处 理流程, 得到过 滤文本。 5.根据权利要求4所述的方法, 其特征在于, 采用权重加和算法对初始标签进行权重加 和计算, 得到候选标签, 包括: 采用权重加和算法对初始标签进行权重加和计算, 得到初始标签的权重为weight+=权 利 要 求 书 1/2 页 2 CN 115269842 A 2weight*pow(a,b), 其中a,b为初始标签对应的不相同的关键词的词权重, pow(a,b)表示衰 减系数; 根据初始标签的权 重和预先设置的阈值对初始标签进行选取, 得到候选标签。 6.根据权利要求5所述的方法, 其特征在于, 根据 预先设置的规则对所述候选标签进行 标签筛选, 并对筛 选后的标签进行权 重缩放计算, 得到缩放后的标签, 包括: 对比喻常使用的词汇进行排除词和必备词的处理, 若文本 中所述候选标签和排除词同 时出现时, 则删除所述候选标签; 若文本中所述候选标签和必备词不同时出现时, 则删除所 述候选标签; 对所有对筛选后的标签统一进行缩放函数处理, 将每个标签最终的累加权重值缩放到 (0,1]之间, 得到缩放后的标签。 7.根据权利 要求6所述的方法, 其特征在于, 基于badcase和先验知识设置规则词库, 根 据所述规则词库对所述缩放后的标签进行互斥标签处 理, 得到最终标签, 包括: 基于badcase和先验知识设置规则词库, 所述规则词库中规定当在第一标签中设置了 与第二标签互斥, 则当一篇新闻同时包含第一标签与第二标签的特征词, 仅保留第二标签, 删除第一标签。 8.一种智能标签生成装置, 其特 征在于, 所述装置包括: 预处理模块, 用于获取资讯文本; 将所述资讯文本进行文本清洗和正则筛选, 得到过滤 文本; 词权重计算模块, 用于对所述过滤文本进行分词计算和文本长短判断, 根据判断结果 对所述过 滤文本进行分词权 重计算和关键词权 重计算, 得到词权 重; 特征词关联匹配模块, 用于根据所述词权重从所述过滤文本中进行关键词提取, 基于 深度学习BERT模型对提取到的关键词进 行歧义词判断, 利用判断结果和预先设置的词 库规 则进行标签特征词关联匹配, 得到初始标签; 标签筛选模块, 用于采用权重加和算法对初始标签进行权重加和计算, 得到候选标签; 根据预先设置的规则对所述候选标签进行标签筛选, 并对筛选后的标签进行权重缩放计 算, 得到缩放后的标签; 最终标签生成模块, 用于基于badcase和先验知识设置规则词库, 根据所述规则词库对 所述缩放后的标签进行互斥标签处 理, 得到最终标签。 9.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115269842 A 3

PDF文档 专利 一种智能标签生成方法、装置、计算机设备和存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种智能标签生成方法、装置、计算机设备和存储介质 第 1 页 专利 一种智能标签生成方法、装置、计算机设备和存储介质 第 2 页 专利 一种智能标签生成方法、装置、计算机设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。