全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210090322.4 (22)申请日 2022.01.25 (71)申请人 广东横琴数说故事信息科技有限公 司 地址 519000 广东省珠海市横琴新区宝华 路6号105室-72989 (集中办公区) (72)发明人 谢黛娜 何宇轩 牟昊 李旭日  徐亚波  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 禹小明 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 16/901(2019.01)G06F 40/295(2020.01) G06N 20/00(2019.01) (54)发明名称 一种基于知识图谱和置信度的实体形象分 析方法及系统 (57)摘要 本发明提出一种基于知识图谱和置信度的 实体形象分析方法及系统, 涉及知识图谱的技术 领域, 首先在明确预关注的实体及实体形象 的预 关注维度后, 在代表性文档中标注实体和实体关 系, 通过引入Bert中文预训练模型并训练, 实现 命名实体识别和关系抽取, 从而自动提取更多的 知识, 构建初步的知识图谱。 经过命名实体识别 和关系抽取之后, 利用实体置信度和关系置信度 来衡量知识图谱的可信度, 进行知识的初步过 滤, 保证了实体形象分析的高效性, 为进一步筛 选出更具有代表性的实体形象标签, 引入权重 TF‑IDF统计量, 从而实现更高质量地提取出实体 形象的标签词。 权利要求书3页 说明书12页 附图2页 CN 114564591 A 2022.05.31 CN 114564591 A 1.一种基于知识图谱和置信度的实体形象分析方法, 其特征在于, 所述方法包括以下 步骤: S1.确认预关注的实体及实体形象的预关注维度, 根据关键词码表收集以预关注实体 为核心的代 表性文档; S2.从文档中人工识别实体、 实体类型以及实体关系, 并标注文档中预关注的实体和实 体关系, 得到标注数据, 将标注数据划分为标注训练数据集和标注测试 数据集; S3.引入B ert中文预训练通用模型, 对B ert中文预训练通用模型添加下游任务, 构成命 名实体识别模型和关系抽取模型, 并利用标注训练数据集训练, 利用标注测试数据集测试, 得到训练好的Bert大规模中文预训练模型, 以进行命名实体识别和关系抽取, 实体和关系 构成知识, 形成知识图谱的第一部分; S4.根据实体和关系, 计算知识置信度, 然后 基于知识置信度计算关系置信度及实体置 信度, 进行知识的融合, 并存入知识图谱, 形成知识图谱, 根据关系置信度及实体置信度过 滤实体关联的标签词; S5.确定每个实体 的权重TF ‑IDF统计量, 根据每个实体 的权重TF ‑IDF统计量过滤实体 关联的标签词, 得到最终的实体形象标签。 2.根据权利要求1所述的基于知识图谱和置信度的实体形象分析方法, 其特征在于, 步 骤S1中所述的预关注的实体包括 企业、 品牌及明星, 实体形象 的预关注维度包括社会维度、 视觉维度、 个人维度、 社会口碑维度。 3.根据权利要求2所述的基于知识图谱和置信度的实体形象分析方法, 其特征在于, 在 步骤S2中, 标注数据为人工标注的实体和实体关系组成的三元组知识, 在实体和实体关系 组成的三元 组知识中, 实体分为头实体和尾实体, 三元 组知识表达为 “头实体‑>实体关系 ‑> 尾实体”。 4.根据权利要求3所述的基于知识图谱和置信度的实体形象分析方法, 其特征在于, 在 步骤S3中, 利用标注训练数据集训练命名实体识别模型和关系抽取模型, 利用标注测试数 据集测试命名实体识别模型和关系抽取模型后, 得到训练好的大规模中文预训练模型, 引 入新数据作为预测数据输入Bert大规模中文 预训练模 型, Bert大规模中文 预训练模 型输出 预测结果, 根据预测结果和人工标注的实体和实体关系组成的三元组知识结果, 统计Bert 大规模中文预训练模型的准确率和召回率, 设定模型评价阈值, 在Bert大规模中文预训练 模型的准确率和召回率低于模型评价阈值时, 返回查看人工标注的实体和实体关系组成的 三元组知识准备工作、 标注数据量的准备工作出错情况, 重新训练命名实体识别模型和关 系抽取模 型; 在准确率和召回率不低于模 型评价阈值时, 训练完成, 得到训练好的Bert大规 模中文预训练模型。 5.根据权利要求3所述的基于知识图谱和置信度的实体形象分析方法, 其特征在于, 步 骤S4所述的根据实体和关系, 计算知识置信度的表达式为: confidence=A*距离系数/B 其中, confidence表示知识置信度; B表示设置 的最大距离; A表示置信度上限, 由于关 系置信度由知识本身和声量构成, 将知识置信度的范围定义 为0~70; 距离系数满足: 距离系数=|B –C| 其中, C表示实体和 实体关系组成的三元组知识中头实体与尾实体的距离, 在C>B时,权 利 要 求 书 1/3 页 2 CN 114564591 A 2距离系数为0; 同一条实体和实体关系组成的三元组知识若出现多次, 则存在多个知识置信度, 取多 个知识置信度中最大的作为这条知识的知识置信度; 在步骤S4中所述的关系置信度及实体 置信度的计算基于知识置信度实现, 其中, 关系置信度的计算表达式为: E=min(100,round(co nfidence_prob+co nfidence_vo l)) 其中, confidence_prob表示知识置信度贡献部分; confidence_vol表示声量贡献部 分; round()表示取整操作, 关系置信度的取值范围为0~100; 声量贡献部分的计算表达式 为: confidence_vol=声量权重系数*(ln(该知识的新声量和库中该知识声量的总声量)* 10) 其中, 该知识的新声量和库中该知识声量的总声量均已知, 声量权重系数取0.3; 知识 置信度贡献部分的计算表达式为: confidence_prob=知识置信度权 重系数*confidence*声量系数 其中, confidence_prob表示知识置信度贡献部分, 与知识图谱中的关系置信度相比, 取两者中的较大值, 作为最后的知识置信度贡献部分; 知识置信度权重系 数表示知识置信 度在关系置信度的贡献部分, 取0.7; 声量系数的求 解满足: 在实体置信度计算时, 存在一个实体出现在多个三元组知识中的可能性, 对于实体i, 取所有含实体i的三元组知识中的关系置信度排序在前6位的均值, 将该均值与与知识图谱 中的实体置信度比较, 取两者中的较大值作为实体置信度, 若知识图谱中无实体i, 则所有 含实体i的三元组知识中的关系置信度排序在前6位的均值作为实体置信度。 6.根据权利要求5所述的基于知识图谱和置信度的实体形象分析方法, 其特征在于, 由 于知识获取数据源不同, 可信度不同, 在知识置信度confidence中加入 数据源权重, 得到表 达式: New_confidence=min(99,confidence*(1 ‑ratio)+confidence*ln(max(1,weight))* ratio) 其中, New_confidence表示加入数据源权重的知识置信度, ratio表示权重放缩系数, weight表示数据源权 重, 取0~10 。 7.根据权利要求5所述的基于知识图谱和置信度的实体形象分析方法, 其特征在于, 根 据关系置信度及实体置信度过滤实体关联的标签词时, 根据关系类型 “描述”或“标签”在知 识图谱中查找实体类型为 “标签“的实体, 分别设置关系置信度阈值及实体置信度阈值, 仅 保留关系置信度大于关系置信度阈值的标签以及保留实体置信度大于实体置信度阈值的 标签。 8.根据权利要求7所述的基于知识图谱和置信度的实体形象分析方法, 其特征在于, 在 步骤S5中, 每 个实体的权 重TF‑IDF统计量的计算过程满足: 对于每个实体关联的每 个标签词: TF=1/某实体的标签词数目权 利 要 求 书 2/3 页 3 CN 114564591 A 3

.PDF文档 专利 一种基于知识图谱和置信度的实体形象分析方法及系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱和置信度的实体形象分析方法及系统 第 1 页 专利 一种基于知识图谱和置信度的实体形象分析方法及系统 第 2 页 专利 一种基于知识图谱和置信度的实体形象分析方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。