全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210970001.3 (22)申请日 2022.08.12 (71)申请人 广州欢聚时代信息科技有限公司 地址 511442 广东省广州市番禺区南村镇 万博二路79 号万博商务区万达商业广 场北区B-1栋23层 (72)发明人 葛莉  (74)专利代理 机构 广州利能知识产权代理事务 所(普通合伙) 44673 专利代理师 王增鑫 (51)Int.Cl. G06F 16/34(2019.01) G06K 9/62(2022.01) G06F 16/35(2019.01) G06F 40/216(2020.01)G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 商品标题摘要生成方法及其装置、 设备、 介 质 (57)摘要 本申请涉及计算机技术领域中一种商品标 题摘要生成方法及其装置、 设备、 介质, 所述方法 包括: 获取商品的标题文本; 从标题文本中提取 出属于产品词和属于属性词的知识词条, 以知识 词条的统计特征确定每个知识词条的信息评分, 根据其选取相应的产品词与属性词的组合文本 构造第一候选摘要集合; 计算由标题文本中的部 分词元相应组合而成的多个长文本与标题文本 之间的相似度, 选出相似度较高的长文本构造第 二候选摘要集合; 以标题文本与第一候选摘要集 合及第二候选摘要集合中各个候选摘要组成数 据对, 输入至预先训练至收敛的文本分类模型, 预测出各个候选摘要相对应的质量评分, 选出质 量评分较高的候选摘要作为标题文本的摘要。 本 申请能生成高质量摘要。 权利要求书3页 说明书16页 附图5页 CN 115203400 A 2022.10.18 CN 115203400 A 1.一种商品标题摘要生成方法, 其特 征在于, 包括如下步骤: 获取商品的标题文本; 从所述标题文本 中提取出属于产品词和属于属性词的知识词条, 以知识词条的统计特 征确定每个知识词条的信息评 分, 根据信息评 分选取相应的产品词与属性词的组合文本构 造第一候选摘要集 合; 计算由标题文本中的部分词元相应组合而成的多个长文本分别与标题文本之间的相 似度, 优选出相似度较高的长文本构造第二 候选摘要集 合; 以所述标题文本与第一候选摘要集合及第二候选摘要集合中各个候选摘要组成数据 对, 输入至预先训练至收敛的文本 分类模型, 预测出各个候选摘要相对应的质量评 分, 优选 出质量评分较高的候选摘要作为标题文本的摘要。 2.根据权利要求1所述的商 品标题摘要生成方法, 其特征在于, 从所述标题文本 中提取 出属于产品词和属于属性词的知识词条, 以知识词条的统计特征确定每个知识词条的信息 评分的步骤中, 包括如下步骤: 将所述标题文本与 预设的产品词库进行匹配, 获得该标题文本中属于产品词的知识词 条; 将所述标题文本与 预设的属性词库进行匹配, 获得该标题文本中属于属性词的知识词 条; 参考预设的标题库计算的统计词频确定每 个知识词条的词频 特征; 根据每个知识词条在所述标题文本中的位置确定其 位置特征; 根据每个知识词条的词频 特征与位置特 征量化确定该知识词条的信息 评分。 3.根据权利要求1所述的商 品标题摘要生成方法, 其特征在于, 计算由标题文本 中的部 分词元相应组合而成的多个长文本 分别与标题文本之 间的相似度, 优选出相似度较高的长 文本构造第二 候选摘要集 合的步骤中, 包括如下步骤: 获取由所述标题文本中的部分词元相应组合而成的多个长文本; 采用预先训练至收敛的文本相似度模型, 基于所述标题文本及各个所述长文本相对应 的文本语义特 征, 计算各个长文本与标题文本之间的相似度; 筛选出相似度高于预设阈值的长文本构建第二 候选摘要集 合。 4.根据权利要求3所述的商 品标题摘要生成方法, 其特征在于, 获取由所述标题文本中 的部分词元相应组合而成的多个长文本的步骤中: 对所述标题文本进行分词, 将所得的词元进行相邻组合, 获得相对应的多个长文本, 所 述相邻组合 为在标题文本中位置相邻的多个词元进行组合。 5.根据权利要求1所述的商 品标题摘要生成方法, 其特征在于, 所述文本分类模型的训 练过程, 包括如下步骤: 获取预备的训练集中的单个训练样本, 所述训练集中的各个训练样本包含商品的标题 文本、 候选摘要及质量标签, 所述训练样本标注的质量标签表征训练样本的候选摘要能否 作为标题文本的摘要; 由文本分类模型对训练样本提取文本语义特征后, 经预测模块输出预测所述训练样本 为正样本对应的质量评分; 根据所述训练样本相对应的质量标签计算所述文本分类模型的质量评分的损失值, 在权 利 要 求 书 1/3 页 2 CN 115203400 A 2该模型损失值未达到预设阈值时对该模型实施权重更新, 并继续调用其他训练样本实施迭 代训练直到模型收敛。 6.根据权利要求5所述的商 品标题摘要生成方法, 其特征在于, 获取预备的训练集中的 单个训练样本的步骤之前, 还 包括如下步骤: 获取商品的品类系统中每个品类相对应的多个商品的标题文本, 构造相对应的第 一候 选摘要集 合及第二 候选摘要集 合; 对所述每个品类包含的各个标题文本对应的第一候选摘要集合及第二候选摘要集合 中各个候选摘要进行分词, 采用 词袋模型构建各个品类的词袋, 其中包含相应品类的各个 分词对应在候选摘要中的不同位置时, 该分词对应的多个位置词 频, 选取每个品类的各个 候选摘要的最后一个分词, 关联其对应的各个位置词频作为关联对构造关联 数据集; 判断关联数据集中的各个关联对中所有的位置词频是否满足预设的正样本条件分布 中的所有条件, 若满足则将相应的候选摘要标注为正样本相对应的质量标签, 否则判断是 否满足预设的负样本条件分布中任意一项或多项 条件, 若满足则将相应的候选摘要标注为 负样本相对应的质量标签; 将各个被标注的候选摘要关联其对应标题文本及质量标签作为训练样本构建训练集。 7.根据权利要求6所述的商品标题摘要生成方法, 其特 征在于: 所述正样本条件分布包括: 相应的候选摘要中, 在候选摘要的最后一位的位置词频大 于与其紧邻的位置的位置词频乘上第一权重; 在候选摘要的最后一位的位置词频大于所述 紧邻的位置的位置词频之外的位置词频; 在候选摘要的最后一位的位置词频大于等于第一 预定阈值; 在候选摘要的最后一位的位置词 频大于第二预定阈值, 所述第二预定阈值基于 所述候选摘要所对应品类包 含的标题文本的总数确定; 所述负样本条件分布包括: 相应的候选摘要中, 在候选摘要的最后一位的位置词频小 于第一预定阈值; 在候选摘要中的最后一位的位置词频小于与其紧邻的位置的位置词频乘 上第二权 重; 在候选摘要的最后一 位的位置词频小于其 他位置的位置词频。 8.一种商品标题摘要生成装置, 其特 征在于, 包括: 标题获取模块, 用于获取商品的标题文本; 第一集合构造模块, 用于从所述标题文本中提取出属于产品词和属于属性词的知识词 条, 以知识词条 的统计特征确定每个知识词条 的信息评分, 根据信息评分选取相应的产品 词与属性词的组合文本构造第一 候选摘要集 合; 第二集合构造模块, 用于计算由标题文本中的部分词元相应组合而成的多个长文本分 别与标题文本之间的相似度, 优选出相似度较高的长文本构造第二 候选摘要集 合; 摘要生成模块, 用于以所述标题文本与第 一候选摘要集合及第 二候选摘要集合中各个 候选摘要组成数据对, 输入至预先训练至 收敛的文本分类模型, 预测出各个候选摘要相对 应的质量评分, 优选出质量评分较高的候选摘要作为标题文本的摘要。 9.一种计算机设备, 包括中央处理器和存储器, 其特征在于, 所述中央处理器用于调用 运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的 步骤。 10.一种计算机可读存储介质, 其特征在于, 其以计算机可读指令的形式存储有依据权 利要求1至7中任意一项 所述的方法所实现的计算机程序, 该计算机程序被计算机调用运行权 利 要 求 书 2/3 页 3 CN 115203400 A 3

PDF文档 专利 商品标题摘要生成方法及其装置、设备、介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 商品标题摘要生成方法及其装置、设备、介质 第 1 页 专利 商品标题摘要生成方法及其装置、设备、介质 第 2 页 专利 商品标题摘要生成方法及其装置、设备、介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。