专利一种基于知识图谱和置信度的实体形象分析方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210090322.4 (22)申请日 2022.01.25 (71)申请人广东横琴数说故事信息科技有限公司地址 519000 广东省珠海市横琴新区宝华路6号105室-72989 （集中办公区） (72)发明人谢黛娜　何宇轩　牟昊　李旭日　徐亚波　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 专利代理师禹小明 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 16/901(2019.01)G06F 40/295(2020.01) G06N 20/00(2019.01) (54)发明名称一种基于知识图谱和置信度的实体形象分析方法及系统 (57)摘要本发明提出一种基于知识图谱和置信度的实体形象分析方法及系统，涉及知识图谱的技术领域，首先在明确预关注的实体及实体形象的预关注维度后，在代表性文档中标注实体和实体关系，通过引入Bert中文预训练模型并训练，实现命名实体识别和关系抽取，从而自动提取更多的知识，构建初步的知识图谱。经过命名实体识别和关系抽取之后，利用实体置信度和关系置信度来衡量知识图谱的可信度，进行知识的初步过滤，保证了实体形象分析的高效性，为进一步筛选出更具有代表性的实体形象标签，引入权重 TF‑IDF统计量，从而实现更高质量地提取出实体形象的标签词。权利要求书3页说明书12页附图2页 CN 114564591 A 2022.05.31 CN 114564591 A 1.一种基于知识图谱和置信度的实体形象分析方法，其特征在于，所述方法包括以下步骤： S1.确认预关注的实体及实体形象的预关注维度，根据关键词码表收集以预关注实体为核心的代表性文档； S2.从文档中人工识别实体、实体类型以及实体关系，并标注文档中预关注的实体和实体关系，得到标注数据，将标注数据划分为标注训练数据集和标注测试数据集； S3.引入B ert中文预训练通用模型，对B ert中文预训练通用模型添加下游任务，构成命名实体识别模型和关系抽取模型，并利用标注训练数据集训练，利用标注测试数据集测试，得到训练好的Bert大规模中文预训练模型，以进行命名实体识别和关系抽取，实体和关系构成知识，形成知识图谱的第一部分； S4.根据实体和关系，计算知识置信度，然后基于知识置信度计算关系置信度及实体置信度，进行知识的融合，并存入知识图谱，形成知识图谱，根据关系置信度及实体置信度过滤实体关联的标签词； S5.确定每个实体的权重TF ‑IDF统计量，根据每个实体的权重TF ‑IDF统计量过滤实体关联的标签词，得到最终的实体形象标签。 2.根据权利要求1所述的基于知识图谱和置信度的实体形象分析方法，其特征在于，步骤S1中所述的预关注的实体包括企业、品牌及明星，实体形象的预关注维度包括社会维度、视觉维度、个人维度、社会口碑维度。 3.根据权利要求2所述的基于知识图谱和置信度的实体形象分析方法，其特征在于，在步骤S2中，标注数据为人工标注的实体和实体关系组成的三元组知识，在实体和实体关系组成的三元组知识中，实体分为头实体和尾实体，三元组知识表达为 “头实体‑>实体关系 ‑> 尾实体”。 4.根据权利要求3所述的基于知识图谱和置信度的实体形象分析方法，其特征在于，在步骤S3中，利用标注训练数据集训练命名实体识别模型和关系抽取模型，利用标注测试数据集测试命名实体识别模型和关系抽取模型后，得到训练好的大规模中文预训练模型，引入新数据作为预测数据输入Bert大规模中文预训练模型， Bert大规模中文预训练模型输出预测结果，根据预测结果和人工标注的实体和实体关系组成的三元组知识结果，统计Bert 大规模中文预训练模型的准确率和召回率，设定模型评价阈值，在Bert大规模中文预训练模型的准确率和召回率低于模型评价阈值时，返回查看人工标注的实体和实体关系组成的三元组知识准备工作、标注数据量的准备工作出错情况，重新训练命名实体识别模型和关系抽取模型；在准确率和召回率不低于模型评价阈值时，训练完成，得到训练好的Bert大规模中文预训练模型。 5.根据权利要求3所述的基于知识图谱和置信度的实体形象分析方法，其特征在于，步骤S4所述的根据实体和关系，计算知识置信度的表达式为： confidence＝A*距离系数/B 其中， confidence表示知识置信度； B表示设置的最大距离； A表示置信度上限，由于关系置信度由知识本身和声量构成，将知识置信度的范围定义为0～70；距离系数满足：距离系数＝|B –C| 其中， C表示实体和实体关系组成的三元组知识中头实体与尾实体的距离，在C＞B时，权　利　要　求　书 1/3 页 2 CN 114564591 A 2距离系数为0；同一条实体和实体关系组成的三元组知识若出现多次，则存在多个知识置信度，取多个知识置信度中最大的作为这条知识的知识置信度；在步骤S4中所述的关系置信度及实体置信度的计算基于知识置信度实现，其中，关系置信度的计算表达式为： E＝min(100,round(co nfidence_prob+co nfidence_vo l)) 其中， confidence_prob表示知识置信度贡献部分； confidence_vol表示声量贡献部分； round()表示取整操作，关系置信度的取值范围为0～100；声量贡献部分的计算表达式为： confidence_vol＝声量权重系数*(ln(该知识的新声量和库中该知识声量的总声量)* 10) 其中，该知识的新声量和库中该知识声量的总声量均已知，声量权重系数取0.3；知识置信度贡献部分的计算表达式为： confidence_prob＝知识置信度权重系数*confidence*声量系数其中， confidence_prob表示知识置信度贡献部分，与知识图谱中的关系置信度相比，取两者中的较大值，作为最后的知识置信度贡献部分；知识置信度权重系数表示知识置信度在关系置信度的贡献部分，取0.7；声量系数的求解满足：在实体置信度计算时，存在一个实体出现在多个三元组知识中的可能性，对于实体i，取所有含实体i的三元组知识中的关系置信度排序在前6位的均值，将该均值与与知识图谱中的实体置信度比较，取两者中的较大值作为实体置信度，若知识图谱中无实体i，则所有含实体i的三元组知识中的关系置信度排序在前6位的均值作为实体置信度。 6.根据权利要求5所述的基于知识图谱和置信度的实体形象分析方法，其特征在于，由于知识获取数据源不同，可信度不同，在知识置信度confidence中加入数据源权重，得到表达式： New_confidence＝min(99,confidence*(1 ‑ratio)+confidence*ln(max(1,weight))* ratio) 其中， New_confidence表示加入数据源权重的知识置信度， ratio表示权重放缩系数， weight表示数据源权重，取0～10 。 7.根据权利要求5所述的基于知识图谱和置信度的实体形象分析方法，其特征在于，根据关系置信度及实体置信度过滤实体关联的标签词时，根据关系类型 “描述”或“标签”在知识图谱中查找实体类型为 “标签“的实体，分别设置关系置信度阈值及实体置信度阈值，仅保留关系置信度大于关系置信度阈值的标签以及保留实体置信度大于实体置信度阈值的标签。 8.根据权利要求7所述的基于知识图谱和置信度的实体形象分析方法，其特征在于，在步骤S5中，每个实体的权重TF‑IDF统计量的计算过程满足：对于每个实体关联的每个标签词： TF＝1/某实体的标签词数目权　利　要　求　书 2/3 页 3 CN 114564591 A 3

专利 一种基于知识图谱和置信度的实体形象分析方法及系统

专利一种基于知识图谱和置信度的实体形象分析方法及系统