全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210907273.9 (22)申请日 2022.07.29 (71)申请人 广州华多网络科技有限公司 地址 511442 广东省广州市番禺区南村镇 万达广场B1栋24层 (72)发明人 葛莉  (74)专利代理 机构 广州利能知识产权代理事务 所(普通合伙) 44673 专利代理师 王增鑫 (51)Int.Cl. G06Q 30/06(2012.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 属性信息编码方法及其装置、 设备、 介质、 产 品 (57)摘要 本申请涉及属性信息编码方法及其装置、 设 备、 介质、 产品, 所述方法包括: 获取数据集中多 个属性样 本, 属性样本包括预设属性空间中的各 个成员属性相对应的属性项, 每个属性项包括属 性名称及属性类别, 属性类别为其成员属性的类 别空间中的成员类别; 统计所有属性样本中每两 个属性项的共现词频, 获得表 示所有属性项的共 现词频分布的共现词频矩阵; 初始化词嵌入矩 阵, 其中包含属性空间下全量属性项相对应的词 向量, 词向量包括前缀向量和后缀向量, 前缀向 量为相应的属性项的成员属性的独热编码向量, 后缀向量为随机向量; 以任意两个属性项的词向 量拟合共现词频矩 阵中该两个属性项的共现词 频, 修正词向量。 本申请能将属性信息表示为低 维稠密向量。 权利要求书2页 说明书14页 附图5页 CN 115239429 A 2022.10.25 CN 115239429 A 1.一种属性信息编码方法, 其特 征在于, 包括: 获取数据集, 其中包括多个属性样本, 所述属性样本包括预设属性空间中的各个成员 属性相对应的属 性项, 每个属 性项包括属 性名称及属 性类别, 所述属 性类别为其成员属 性 的类别空间中的成员类别; 统计所有属性样本 中每两个属性项的共现词频, 获得表示所有属性项的共现词频分布 的共现词频矩阵; 初始化词嵌入矩阵, 其中包含所述属性空间下全量属性项相对应的词向量, 每个词向 量包括前缀向量和后缀向量, 所述前缀向量为相应的属 性项的成员属 性的独热编码向量, 所述后缀向量 为随机向量; 以任意两个属性项的词向量拟合所述共现词频矩阵中该两个属性项相应的共现词频, 修正所述两个属性项的词向量。 2.根据权利要求1所述的属性信 息编码方法, 其特征在于, 统计所有属性样本中每两个 属性项的共现词频, 获得表示所有属性项的共现词频分布的共现词频矩阵, 包括: 采用自然数值作为索引特征对属性空间下全量属性项进行有序编码, 获得各个属性项 与其索引特 征之间的映射关系数据; 根据所述映射关系数据查找获得每个属性样本的样本向量, 其中每个属性项表示为其 相对应的索引特 征; 基于全量属性样本的样本向量, 计算所述属性空间下全量属性项中两两属性项之间的 共现词频; 将所述属性空间下两两属性项之间的共现词频分布表示为共现词频矩阵, 其中每个元 素表示其所在的行相对应的属性项与其所在的列相对应属性项之间的共现词频。 3.根据权利要求1所述的属性信息编码方法, 其特 征在于, 初始化词嵌入矩阵, 包括: 创建词嵌入矩阵, 将其各行分别用于表示所述属性空间下各个属性项的词向量, 使每 个词向量包括前缀向量和后缀向量; 对所述属性空间中的各个成员属性进行独热编码, 将各个属性项相对应的成员属性的 独热编码存 储为该词嵌入矩阵中相应属性项的前缀向量; 采用随机数为所述词嵌入矩阵中各个词向量的后缀向量赋值, 所述随机数符合正态分 布或均匀分布。 4.根据权利要求1所述的属性信 息编码方法, 其特征在于, 以任意两个属性项的词向量 拟合所述共现词 频矩阵中该两个属 性项相应的共现词 频, 修正所述两个属 性项的词向量, 包括: 单次或批量调用所述词嵌入矩阵中的任意两个属性项的词向量构 成的向量对, 输入预 建模的数 学模型; 由所述数学模型应用预设损失函数, 根据 所述两个属性项的词向量构 成的向量对拟合 出该两个属性项的共现词频, 与该两个属性项在所述共现词频矩阵中的共现词频计算出损 失值; 判断所述损 失值或迭代次数是否达到预设收敛条件, 当未达到预设收敛条件时, 根据 所述损失值修正所述两个属性项的词向量, 继续单次或批量调用所述词嵌入矩阵中的任意 两个属性项的词向量对所述数 学模型实施迭代训练, 直至 达到预设收敛 条件时终止迭代。权 利 要 求 书 1/2 页 2 CN 115239429 A 25.根据权利要求4所述的属性信 息编码方法, 其特征在于, 修正所述两个属性项的词向 量的步骤中, 包括修正所述两个属性项的词向量的权重和/或偏置系数, 其修正幅度与所述 两个属性项的词向量在所述共现词频矩阵中的共现词频成正比。 6.根据权利要求1至5中任意一项所述的属性信息编码方法, 其特征在于, 以任意两个 属性项的词向量拟合所述共现词频矩阵中该两个属性项相应的共现词频, 修正所述两个属 性项的词向量之后, 包括: 获取待处 理的属性信息, 所述属性信息包括至少一个所述的属性项; 从所述词嵌入矩阵中查询出 所述属性信息的各个属性项相对应的词向量; 将所述各个词向量 合并构造为所述属性信息相对应的属性向量。 7.根据权利要求6所述的属性信 息编码方法, 其特征在于, 将所述各个词向量合并构造 为所述属性信息相对应的属性向量之后, 包括: 将所述属性信息的各个属性向量序列化输入预设的神经网络模型中的特征提取器提 取出其深层语义信息, 获得深层特 征信息; 由所述神经网络模型中的分类器将所述深层特征信 息映射到分类空间, 获得分类空间 中各个类别相对应的分类概 率; 判定分类空间中分类概 率最大的类别为所述属性信息的类别 信息。 8.一种属性信息编码装置, 其特 征在于, 包括: 样本调用模块, 用于获取数据集, 其中包括多个属性样本, 所述属性样本包括预设属性 空间中的各个成员属 性相对应的属 性项, 每个属 性项包括属 性名称及属 性类别, 所述属 性 类别为其成员属性的类别空间中的成员类别; 词频统计模块, 用于统计所有属性样本中每两个属性项的共现词频, 获得表示所有属 性项的共现词频分布的共现词频矩阵; 属性嵌入模块, 用于初始化词嵌入矩阵, 其中包含所述属性空间下全量属性项相对应 的词向量, 每个词向量包括前缀向量和后缀向量, 所述前缀向量为相应的属 性项的成员属 性的独热编码向量, 所述后缀向量 为随机向量; 向量修正模块, 用于以任意两个属性项的词向量拟合所述共现词频矩阵中该两个属性 项相应的共现词频, 修 正所述两个属性项的词向量。 9.一种计算机设备, 包括中央处理器和存储器, 其特征在于, 所述中央处理器用于调用 运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的 步骤。 10.一种计算机可读存储介质, 其特征在于, 其以计算机可读指令的形式存储有依据权 利要求1至7中任意一项 所述的方法所实现的计算机程序, 该计算机程序被计算机调用运行 时, 执行相应的方法所包括的步骤。权 利 要 求 书 2/2 页 3 CN 115239429 A 3

PDF文档 专利 属性信息编码方法及其装置、设备、介质、产品

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 属性信息编码方法及其装置、设备、介质、产品 第 1 页 专利 属性信息编码方法及其装置、设备、介质、产品 第 2 页 专利 属性信息编码方法及其装置、设备、介质、产品 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。