全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210124606.0 (22)申请日 2022.02.10 (71)申请人 深圳市查策网络信息技 术有限公司 地址 518000 广东省深圳市龙华区民治街 道民乐社区星河WORLD二期C 栋3103A (72)发明人 林正春 兰林 陈功文  (74)专利代理 机构 深圳市查策知识产权代理事 务所(普通 合伙) 44527 专利代理师 曾令安 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/953(2019.01) (54)发明名称 一种文本大 数据的图谱分析方法 (57)摘要 本发明涉及一种文本大数据的图谱分析方 法, 该方法包括以下步骤: 采集筛选公布的文本 大数据, 并对筛选后的文本大数据进行标注; 从 筛选的文本大数据中选定图谱分析对象, 并通过 模型对选定的图谱分析对象抽取知识三元组; 对 抽取的知识三元组进行检索, 得到所有编号三元 组, 取最小编号, 并对最小编号三元组进行知识 推理, 得到知识图谱。 本发明公布了一种文本大 数据的图谱分析方法, 通过对文本大数据信息进 行分析, 并构建出知识图谱, 不仅降低了文本大 数据分析的复杂 度, 对文本大数据的解读也更加 方便, 还提高了文本大数据分析的准确性, 进一 步提高企业数据与文本大 数据的匹配度。 权利要求书2页 说明书4页 附图1页 CN 114461817 A 2022.05.10 CN 114461817 A 1.一种文本大 数据的图谱分析 方法, 其特 征在于, 包括以下步骤: (1)采集筛 选公布的文本大 数据, 并对筛 选后的文本大 数据进行 标注; (2)从筛选的文本大数据中选定图谱分析对象, 并通过模型对选定的图谱分析对象抽 取知识三元组; (3)对抽取的知识三元组进行检索, 得到所有编号三元组, 取最小编号, 并对最小编号 三元组进行知识推理, 得到知识图谱。 2.根据权利要求1所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤(1) 具体为: 1.1、 采集公布的文本大 数据, 并筛 选出第一文本大 数据; 1.2、 跟踪筛选后的第一文本大数据, 并采集对应的第二文本大数据信息, 建立文本信 息库; 1.3、 采用Bert模型及预训练模型, 对采集到的第二文本大数据信息进行分词并编号, 建立文本词库。 3.根据权利要求2所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤1.2 中, 对于一类第一文本大数据, 需要跟踪一个月或一年时间; 对于每年不断更新的第一文本 大数据, 则应跟踪 多年直到文本大 数据停止更新。 4.根据权利要求2所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤1.2 中的第二文本大 数据信息包括公布的文本名称、 起止时间、 匹配条件以及数据平台。 5.根据权利要求2所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤1.3 的所有分词中, 对 存在近义词关系的分词进行 标注, 且记录 近义词编号。 6.根据权利要求1所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤(2) 具体为: 2.1、 选定一个图谱分析对象TX0, 在文本信息库中找出所有对应的第二文本 大数据信息 TXi, i=1,2,3, …; 2.2、 采用Bert模型及其预训练模型, 抽取第二文本大数据信息TXi的知识三元组SPOi= (Si,Pi,Oi)。 7.根据权利要求6所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤2.1 中的图谱分析对象TX0为一组文本大 数据或一数据平台。 8.根据权利要求1所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤(3) 具体为: 3.1、 在文本词库中对知识三元组SPOi的各分量的近义词进行检索, 得到所有近义词及 编号, 取最小编号; 3.2、 采用最大流算法, 对最小编号三元组SPO_idi进行知识推理, 得到图谱 分析对象TX0 的知识图谱。 9.根据权利要求8所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤3.1 具体为: 3.1.1、 在文本词库中检索知识Si的所有近义词并记录编号idj,j=1,2,3, …, 设id0为 知识Si对应的编号, 取最小编号S_idi=min{id0,id1,id2,id3,…}; 3.1.2、 针对知识Pi,Oi采用上述同样的方法得到最小编号P_idi, O_idi;权 利 要 求 书 1/2 页 2 CN 114461817 A 23.1.3、 综上所述, 得到知识三元组SPOi对应的最小编号三元组SPO_idi=(S_idi,P_idi, O_idi)。权 利 要 求 书 2/2 页 3 CN 114461817 A 3

.PDF文档 专利 一种文本大数据的图谱分析方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本大数据的图谱分析方法 第 1 页 专利 一种文本大数据的图谱分析方法 第 2 页 专利 一种文本大数据的图谱分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。