全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210244264.6 (22)申请日 2022.03.11 (71)申请人 北京师范大学 地址 102218 北京市海淀区新 街口外大街 19号 (72)发明人 王怀波 陈丽 郑勤华 杜君磊  (74)专利代理 机构 北京三聚阳光知识产权代理 有限公司 1 1250 专利代理师 王娜 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 16/38(2019.01) G06F 40/279(2020.01) G06N 3/00(2006.01) (54)发明名称 一种文本分析方法、 装置、 存储介质及电子 设备 (57)摘要 本发明公开了一种文本分析方法、 装置、 存 储介质及电子设备, 获取待分析文本数据集以及 待分析文本数据集中每一个待分析文本的发表 时间; 在每一个待分析文本中抽取对应的知 识实 体; 根据知识实体以及知识实体 之间的关系构建 目标实体网络; 以知识实体隶属的待分析文本的 发表时间为基础, 按照预设聚类算法对目标实体 网络中包含的知识实体进行聚类; 根据聚类结果 确定文本分析的时间窗口及对应的核心知识种 群; 对任意两个相邻时间窗口对应的核心知 识种 群按照目标计算方法进行演化分析。 该方法基于 生态学视角以核心知识种群为分析单位进行演 化分析, 将生物演化理论应用于知识抽取算法 中, 实现了在短时间内高效率地获取文本发展变 化信息。 权利要求书2页 说明书10页 附图3页 CN 114741522 A 2022.07.12 CN 114741522 A 1.一种文本分析 方法, 其特 征在于, 包括如下步骤: 获取待分析文本数据集以及所述待分析文本数据集中每一个待分析文本的发表时间; 在所述每一个待分析文本中抽取对应的知识实体; 根据所述待分析文本数据集中包含的知识实体以及知识实体之间的关系构建目标实 体网络, 所述目标实体网络中知识实体的属性信息包括知识实体隶属的待分析文本的发表 时间; 以所述知识实体隶属的待分析文本的发表时间为基础, 按照预设聚类算法对所述目标 实体网络中包 含的知识实体进行聚类; 根据聚类结果确定文本分析的时间窗口并确定每一个时间窗口对应的核心知识种群, 所述核心知识种群由多个知识实体构成; 对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析。 2.根据权利要求1所述的方法, 其特征在于, 在所述每一个待分析文本中抽取对应的知 识实体, 包括: 在每个待分析文本中根据预设窗口大小构建滑动 窗口并计算任一滑动 窗口中的知识 实体在对应的待分析文本中的重要性; 根据所述待分析文本数据集和包含所述知识实体的待分析文本计算所述知识实体的 区分度; 根据所述重要性和所述区分度在所述每一个待分析文本中抽取对应的知识实体。 3.根据权利要求1所述的方法, 其特征在于, 根据聚类结果确定文本分析的时间窗口并 确定每一个时间窗口对应的核心知识种群, 包括: 根据GN算法确定每一个时间窗口对应的核心知识种群。 4.根据权利要求2所述的方法, 其特征在于, 对任意两个相邻时间窗口对应的核心知识 种群按照目标计算方法进行演化分析, 包括: 根据下式计算对相邻时间窗口之间核心知识种群进行演化分析的影响值: 式中, E表征知识实体本身对相邻时间窗口之间核心知识种群进行演化分析的影响; M 表征相邻时间窗口之间核心知识种群变化及知识实体之间的关系对相邻时间窗口之间核 心知识种群进行演化分析 的影响; ΔS表示相邻时间窗口之间核心知识种群中包含的知识 实体的变化总数; ΔWS表示相 邻时间窗口之 间核心知识种群中包含的知识实体的重要性变 化数; Δidfi表示相邻时间窗口之间核心知识种群中包含的知识实体的区分度 变化数; ΔC 表示相邻时间窗口之间核心知识种群的集聚系 数变化值; ΔL表示相邻时间窗口之间知识 实体之间关系的变化; 当ΔS>0且ΔL>0且E>0且ΔM ′>0, 确定相邻时间窗口之间核心知识种群为遗传性知识 种群; 当ΔS>0且ΔL>0且E <0且ΔM′<0, 确定相邻时间窗口之间核心知识种群处于转型初期;权 利 要 求 书 1/2 页 2 CN 114741522 A 2当ΔS>0且ΔL>0且E<0且ΔM ′>0, 确定相邻时间窗口之间核心知识种群存在知识突变 簇, 处于突变挑战期; 当ΔS<0且ΔL<0且E<0且ΔM′>0, 确定相邻时间窗口之间核心知识种群处于消亡期。 5.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括: 根据所述知识实体的重要性和区分度在所述每一个时间窗口中确定满足条件的核心 知识实体; 计算所述核心知识实体的核心性; 计算与所述核心知识实体相邻的知识实体的平均重要性和平均区分度; 对所述核心知识实体对应的核心性、 所述重要性和区分度及所述平均重要性和平均区 分度进行 可视化处 理。 6.一种文本分析装置, 其特 征在于, 包括: 获取模块, 用于获取待分析文本数据集以及所述待分析文本数据集中每一个待分析文 本的发表时间; 抽取模块, 用于在所述每一个待分析文本中抽取对应的知识实体; 构建模块, 用于根据 所述待分析文本数据集中包含的知识实体以及知识实体之间的关 系构建目标实体网络, 所述目标实体网络中知识实体的属性信息包括知识实体隶属的待分 析文本的发表时间; 聚类模块, 用于以所述知识实体隶属的待分析文本的发表时间为基础, 按照预设聚类 算法对所述目标实体网络中包 含的知识实体进行聚类; 确定模块, 用于根据聚类结果确定文本分析的时间窗口并确定每一个时间窗口对应的 核心知识种群, 所述核心知识种群由多个知识实体构成; 分析模块, 用于对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行 演化分析。 7.根据权利要求6所述的装置, 其特 征在于, 所述装置还 包括: 第一计算模块, 用于在每个待分析文本 中根据预设窗口大小构建滑动窗口并计算任一 滑动窗口中的知识实体在对应的待分析文本中的重要性; 第二计算模块, 用于根据所述待分析文本数据集和包含所述知识实体的待分析文本计 算所述知识实体的区分度; 第一抽取模块, 用于根据所述重要性和所述 区分度在所述每一个待分析文本中抽取对 应的知识实体。 8.根据权利要求6所述的装置, 其特 征在于, 所述装置还 包括: 第一确定模块, 用于根据GN 算法确定每一个时间窗口对应的核心知识种群。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使所述计算机执 行如权利要求1-5任一项所述的文本分析 方法。 10.一种电子设备, 其特征在于, 包括: 存储器和处理器, 所述存储器和所述处理器之间 互相通信连接, 所述存储器存储有计算机指 令, 所述处理器通过执行所述计算机指令, 从而 执行如权利要求1-5任一项所述的文本分析 方法。权 利 要 求 书 2/2 页 3 CN 114741522 A 3

.PDF文档 专利 一种文本分析方法、装置、存储介质及电子设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本分析方法、装置、存储介质及电子设备 第 1 页 专利 一种文本分析方法、装置、存储介质及电子设备 第 2 页 专利 一种文本分析方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。