(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210124606.0
(22)申请日 2022.02.10
(71)申请人 深圳市查策网络信息技 术有限公司
地址 518000 广东省深圳市龙华区民治街
道民乐社区星河WORLD二期C 栋3103A
(72)发明人 林正春 兰林 陈功文
(74)专利代理 机构 深圳市查策知识产权代理事
务所(普通 合伙) 44527
专利代理师 曾令安
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/332(2019.01)
G06F 16/35(2019.01)
G06F 16/953(2019.01)
(54)发明名称
一种文本大 数据的图谱分析方法
(57)摘要
本发明涉及一种文本大数据的图谱分析方
法, 该方法包括以下步骤: 采集筛选公布的文本
大数据, 并对筛选后的文本大数据进行标注; 从
筛选的文本大数据中选定图谱分析对象, 并通过
模型对选定的图谱分析对象抽取知识三元组; 对
抽取的知识三元组进行检索, 得到所有编号三元
组, 取最小编号, 并对最小编号三元组进行知识
推理, 得到知识图谱。 本发明公布了一种文本大
数据的图谱分析方法, 通过对文本大数据信息进
行分析, 并构建出知识图谱, 不仅降低了文本大
数据分析的复杂 度, 对文本大数据的解读也更加
方便, 还提高了文本大数据分析的准确性, 进一
步提高企业数据与文本大 数据的匹配度。
权利要求书2页 说明书4页 附图1页
CN 114461817 A
2022.05.10
CN 114461817 A
1.一种文本大 数据的图谱分析 方法, 其特 征在于, 包括以下步骤:
(1)采集筛 选公布的文本大 数据, 并对筛 选后的文本大 数据进行 标注;
(2)从筛选的文本大数据中选定图谱分析对象, 并通过模型对选定的图谱分析对象抽
取知识三元组;
(3)对抽取的知识三元组进行检索, 得到所有编号三元组, 取最小编号, 并对最小编号
三元组进行知识推理, 得到知识图谱。
2.根据权利要求1所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤(1)
具体为:
1.1、 采集公布的文本大 数据, 并筛 选出第一文本大 数据;
1.2、 跟踪筛选后的第一文本大数据, 并采集对应的第二文本大数据信息, 建立文本信
息库;
1.3、 采用Bert模型及预训练模型, 对采集到的第二文本大数据信息进行分词并编号,
建立文本词库。
3.根据权利要求2所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤1.2
中, 对于一类第一文本大数据, 需要跟踪一个月或一年时间; 对于每年不断更新的第一文本
大数据, 则应跟踪 多年直到文本大 数据停止更新。
4.根据权利要求2所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤1.2
中的第二文本大 数据信息包括公布的文本名称、 起止时间、 匹配条件以及数据平台。
5.根据权利要求2所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤1.3
的所有分词中, 对 存在近义词关系的分词进行 标注, 且记录 近义词编号。
6.根据权利要求1所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤(2)
具体为:
2.1、 选定一个图谱分析对象TX0, 在文本信息库中找出所有对应的第二文本 大数据信息
TXi, i=1,2,3, …;
2.2、 采用Bert模型及其预训练模型, 抽取第二文本大数据信息TXi的知识三元组SPOi=
(Si,Pi,Oi)。
7.根据权利要求6所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤2.1
中的图谱分析对象TX0为一组文本大 数据或一数据平台。
8.根据权利要求1所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤(3)
具体为:
3.1、 在文本词库中对知识三元组SPOi的各分量的近义词进行检索, 得到所有近义词及
编号, 取最小编号;
3.2、 采用最大流算法, 对最小编号三元组SPO_idi进行知识推理, 得到图谱 分析对象TX0
的知识图谱。
9.根据权利要求8所述的一种文本大数据的图谱分析方法, 其特征在于, 所述步骤3.1
具体为:
3.1.1、 在文本词库中检索知识Si的所有近义词并记录编号idj,j=1,2,3, …, 设id0为
知识Si对应的编号, 取最小编号S_idi=min{id0,id1,id2,id3,…};
3.1.2、 针对知识Pi,Oi采用上述同样的方法得到最小编号P_idi, O_idi;权 利 要 求 书 1/2 页
2
CN 114461817 A
23.1.3、 综上所述, 得到知识三元组SPOi对应的最小编号三元组SPO_idi=(S_idi,P_idi,
O_idi)。权 利 要 求 书 2/2 页
3
CN 114461817 A
3
专利 一种文本大数据的图谱分析方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:54:12上传分享