全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210347707.4 (22)申请日 2022.04.01 (71)申请人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区德雅路 109号 (72)发明人 成清 黄金才 程光权 冯旸赫  张小可 黄魁华 杜航 吴克宇  范长俊  (74)专利代理 机构 长沙大珂知识产权代理事务 所(普通合伙) 4323 6 专利代理师 伍志祥 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/279(2020.01) G06F 16/36(2019.01)G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于开源数据事件抽取的目标跟踪方 法 (57)摘要 本发明公开了一种基于开源数据事件抽取 的目标跟踪方法, 检测出与 情报语义相吻合的事 件类型; 提取目标名称及相关事件要素; 整合目 标名称、 事件类型和事件要素得到结构化的事件 对象; 将目标实体与实体库中的实体进行对齐; 合并等价事件使事件具有唯一性; 依据不可能事 件的定义依次判别两两事件的组合是否构成不 可能事件; 依据事件的隐式语义信息聚合相同主 题的事件为簇, 将事件分到不同故事, 并基于故 事特征提取摘要形成故事主题; 按目标对故事进 行拆分, 基于故事情节特征提取摘要形成故事情 节主题; 追踪主题事件的演化过程, 并通过绘制 故事情节事件线可视化目标跟踪过程。 本发明可 基于主题事件脉络自动准确地追踪目标的活动 过程。 权利要求书4页 说明书16页 附图6页 CN 114707517 A 2022.07.05 CN 114707517 A 1.一种基于开源数据事 件抽取的目标跟踪方法, 其特 征在于, 包括以下步骤: 使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相 吻合的事件类型; 用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素; 整 合目标名称、 事件类型和事件要素得到结构化的事件对象<S, t, L, e, A, I>, 其中S是故事, 为 拥有相同主题的一系列事件的集合, t表示事件的发生时间, L表示事件的发生地点集合, e 表示事件, A表示事件的其它核心要素集 合, I表示描述事 件的情报文本集 合; 使用实体对齐方法将目标实体与实体库中的实体进行对齐, 将目标分布映射到低维空 间; 按目标和时间组合事件, 并扫描各个事件组, 根据地点是否相似判别事件的等价性, 进 而合并等 价事件使事件具有唯一 性; 针对事件唯一的事件组, 依据不可能事件的定义依次判别两两事件的组合是否构 成不 可能事件, 即冲突事 件, 通过度量事 件可信度剔除冲突事 件中不可信的事 件; 依据事件的隐式语义信息聚合相同主题的事件为簇, 从而将事件分到不同故事, 并基 于故事特 征提取摘要形成故事主题, 便 于用户了解整体故事内容; 按目标对故事进行拆分, 得到故事子集形成目标相关的故事情节, 基于故事情节特征 提取摘要形成故事情节主题, 用于概 括情节整体内容; 以故事和故事情节为单位梳理时间脉络生成事件线, 追踪主题事件的演化过程, 并通 过绘制故事情节事 件线可视化目标跟踪过程。 2.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法, 其特征在于, 所述使 用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的 事件类型, 包括: 对情报数据进行抽 样统计分析, 定义事件类型标签集合{y1, y2, ...}, 其中y1, y2分别表 示第1个和第2个事 件类型标签; 对于情报文本数据集X={x1, x2, ..., xn}进行事件类型标注, 得到标签集Y={y1, y2, ..., yn},x1, x2, xn分别表示第1个、 第2个和第n个情报文本, y1, y2, yn分别表示第1个、 第2 个和第n个事 件类型标签; 将情报文本xi表示为字的排列, 并在首尾加上特殊标识符, 得到输入xi=[[CLS], w1, w2, ..., wm‑1, wm, [SEP]], 其中w1, w2, ..., wm‑1, wm分别表示第1、 第2、 第m ‑1, 第m个字的排列; 将情报的事件类型标签yi转为one‑hot编码; 构造EDLA模型ELDA(x, W, b), 输入所述情报文本数据集X和所述标签集Y作为训练集(X, Y), 进行迭代训练, 调整(W, b), 使损失函数 最小化, 得到更新后的模型参数W, b, 其中yi是真实值, yi是估计值, n为样本个数; 所述EDLA 模型包含输入层、 预训练语言模型层、 句子向量表示层、 标签注意力层以及输出层; 给定情报文本x, 输出 预测的事 件类型y=ELDA(x, W, b)。 3.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法, 其特征在于, 所述用 基于机器阅读理解的论元抽取 方法提取目标名称及相关事 件要素, 包括: 根据schema定义的事件元素类型构造问句, 即将事件类型和事件元素类型通过一个特 殊标识符“[AND]”连接;权 利 要 求 书 1/4 页 2 CN 114707517 A 2将文本添加无答案的两个标识符 “[START]”、“[END]”; 构造输入数据: 将问句与文本拼接, 并添加开头 “[CLS]”和结尾标识符 “[SEP]”; 将构造好的输入数据输入到BERT模型进行编码; 选择事件元素类型对应的编码输出使用注意力机制进行加权求和之后与到文本对应 的编码输出进行合并; 将合并后的数据输入到Bi LSTM模型, 获取文本的方向信息; 在BiLSTM模型输出端分别连接一层全连接层并使用sigmoid函数激活之后得到答案的 开始位置序列和结束位置序列; 根据开始位置序列和结束位置序列按照就近原则从文本中抽取答案; 根据无答案标识符 “[START]”、“[END]”过滤掉无答案的输入数据, 筛选出含有答案的 输入数据; 根据输入数据中问句含有的事件元素类型信息以及从文本中抽取的答案整理得到一 段文本的事 件元素类型信息、 事 件元素信息。 4.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法, 其特征在于, 所述整 合目标名称、 事 件类型和事 件要素得到结构化的事 件对象包括: 基于文本特 征降维算法对实体库R中的实体数据进行降维处 理; 使用实体召回算法获得粗粒度水平的候选对齐实体; 针对候选实体, 使用实体得分判定算法计算其与实体r的相似度得分, 返回大于阈值的 实体并组装为 集合返回。 5.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法, 其特征在于, 使用实 体对齐方法将目标实体与实体库中的实体进行对齐包括: 对实体库中的实体进行 噪声剔除、 数字归一化、 机型归一化操作, 将 实体特征映射到更 低维度空间, 去除冗余特 征; 基于规则快速召回候选实体, 减小 整个实体对齐算法的复杂度; 基于显示特征评估目标实体与备选实体的相似度, 加权得到候选实体得分, 输出得分 高于阈值的候选实体作为对齐的对象; 其中, 所述基于规则快速召回候选实体的步骤如下 所示: 将实体库所有实体进行文本特 征降维, 获取实体库; 输入实体, 对输入实体进行文本特 征降维操作; 如果实体库中实体与输入实体相同直接输出实体库实体; 如果实体库中实体与输入实 体不同, 进行如下处理: 如果输入实体长度大于7, 剔除输入实体后三个字和清洗后实体进 行对比, 当二者至少有两个字相同时, 使用首字拼音匹配或前两个字拼音字母匹配, 输出该 实体库实体; 如果输入实体长度在[5,7], 剔除输入实体后两个字和清洗后实体进行对比, 当二者至少有两个字相同时, 使用首字拼音匹配或前两个字拼音字母匹配, 输出该实体库 实体; 如果输入实体长度在[3,5], 输入实体和清洗后实体进行对比, 当二者至少 有两个字 相同时, 使用首字拼音匹配或前两个字拼音字母匹配, 输出该实体库实体; 如果输入实体长 度在[0,3], 输入实体和清洗后实体进行全匹配, 若输入实体所有字 符全部在实体库中实体 中, 输出该实体; 完成实体库初步筛 选并对实体库和输入实体剔除后缀处 理;权 利 要 求 书 2/4 页 3 CN 114707517 A 3

.PDF文档 专利 一种基于开源数据事件抽取的目标跟踪方法

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于开源数据事件抽取的目标跟踪方法 第 1 页 专利 一种基于开源数据事件抽取的目标跟踪方法 第 2 页 专利 一种基于开源数据事件抽取的目标跟踪方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。