专利一种基于开源数据事件抽取的目标跟踪方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210347707.4 (22)申请日 2022.04.01 (71)申请人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人成清　黄金才　程光权　冯旸赫　张小可　黄魁华　杜航　吴克宇　范长俊　 (74)专利代理机构长沙大珂知识产权代理事务所(普通合伙) 4323 6 专利代理师伍志祥 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/279(2020.01) G06F 16/36(2019.01)G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于开源数据事件抽取的目标跟踪方法 (57)摘要本发明公开了一种基于开源数据事件抽取的目标跟踪方法，检测出与情报语义相吻合的事件类型；提取目标名称及相关事件要素；整合目标名称、事件类型和事件要素得到结构化的事件对象；将目标实体与实体库中的实体进行对齐；合并等价事件使事件具有唯一性；依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件；依据事件的隐式语义信息聚合相同主题的事件为簇，将事件分到不同故事，并基于故事特征提取摘要形成故事主题；按目标对故事进行拆分，基于故事情节特征提取摘要形成故事情节主题；追踪主题事件的演化过程，并通过绘制故事情节事件线可视化目标跟踪过程。本发明可基于主题事件脉络自动准确地追踪目标的活动过程。权利要求书4页说明书16页附图6页 CN 114707517 A 2022.07.05 CN 114707517 A 1.一种基于开源数据事件抽取的目标跟踪方法，其特征在于，包括以下步骤：使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的事件类型；用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素；整合目标名称、事件类型和事件要素得到结构化的事件对象<S， t， L， e， A， I>，其中S是故事，为拥有相同主题的一系列事件的集合， t表示事件的发生时间， L表示事件的发生地点集合， e 表示事件， A表示事件的其它核心要素集合， I表示描述事件的情报文本集合；使用实体对齐方法将目标实体与实体库中的实体进行对齐，将目标分布映射到低维空间；按目标和时间组合事件，并扫描各个事件组，根据地点是否相似判别事件的等价性，进而合并等价事件使事件具有唯一性；针对事件唯一的事件组，依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件，即冲突事件，通过度量事件可信度剔除冲突事件中不可信的事件；依据事件的隐式语义信息聚合相同主题的事件为簇，从而将事件分到不同故事，并基于故事特征提取摘要形成故事主题，便于用户了解整体故事内容；按目标对故事进行拆分，得到故事子集形成目标相关的故事情节，基于故事情节特征提取摘要形成故事情节主题，用于概括情节整体内容；以故事和故事情节为单位梳理时间脉络生成事件线，追踪主题事件的演化过程，并通过绘制故事情节事件线可视化目标跟踪过程。 2.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，所述使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的事件类型，包括：对情报数据进行抽样统计分析，定义事件类型标签集合{y1， y2， ...}，其中y1， y2分别表示第1个和第2个事件类型标签；对于情报文本数据集X＝{x1， x2， ...， xn}进行事件类型标注，得到标签集Y＝{y1， y2， ...， yn},x1， x2， xn分别表示第1个、第2个和第n个情报文本， y1， y2， yn分别表示第1个、第2 个和第n个事件类型标签；将情报文本xi表示为字的排列，并在首尾加上特殊标识符，得到输入xi＝[[CLS]， w1， w2， ...， wm‑1， wm， [SEP]]，其中w1， w2， ...， wm‑1， wm分别表示第1、第2、第m ‑1，第m个字的排列；将情报的事件类型标签yi转为one‑hot编码；构造EDLA模型ELDA(x， W， b)，输入所述情报文本数据集X和所述标签集Y作为训练集(X， Y)，进行迭代训练，调整(W， b)，使损失函数最小化，得到更新后的模型参数W， b，其中yi是真实值， yi是估计值， n为样本个数；所述EDLA 模型包含输入层、预训练语言模型层、句子向量表示层、标签注意力层以及输出层；给定情报文本x，输出预测的事件类型y＝ELDA(x， W， b)。 3.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，所述用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素，包括：根据schema定义的事件元素类型构造问句，即将事件类型和事件元素类型通过一个特殊标识符“[AND]”连接；权　利　要　求　书 1/4 页 2 CN 114707517 A 2将文本添加无答案的两个标识符 “[START]”、“[END]”；构造输入数据：将问句与文本拼接，并添加开头 “[CLS]”和结尾标识符 “[SEP]”；将构造好的输入数据输入到BERT模型进行编码；选择事件元素类型对应的编码输出使用注意力机制进行加权求和之后与到文本对应的编码输出进行合并；将合并后的数据输入到Bi LSTM模型，获取文本的方向信息；在BiLSTM模型输出端分别连接一层全连接层并使用sigmoid函数激活之后得到答案的开始位置序列和结束位置序列；根据开始位置序列和结束位置序列按照就近原则从文本中抽取答案；根据无答案标识符 “[START]”、“[END]”过滤掉无答案的输入数据，筛选出含有答案的输入数据；根据输入数据中问句含有的事件元素类型信息以及从文本中抽取的答案整理得到一段文本的事件元素类型信息、事件元素信息。 4.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，所述整合目标名称、事件类型和事件要素得到结构化的事件对象包括：基于文本特征降维算法对实体库R中的实体数据进行降维处理；使用实体召回算法获得粗粒度水平的候选对齐实体；针对候选实体，使用实体得分判定算法计算其与实体r的相似度得分，返回大于阈值的实体并组装为集合返回。 5.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法，其特征在于，使用实体对齐方法将目标实体与实体库中的实体进行对齐包括：对实体库中的实体进行噪声剔除、数字归一化、机型归一化操作，将实体特征映射到更低维度空间，去除冗余特征；基于规则快速召回候选实体，减小整个实体对齐算法的复杂度；基于显示特征评估目标实体与备选实体的相似度，加权得到候选实体得分，输出得分高于阈值的候选实体作为对齐的对象；其中，所述基于规则快速召回候选实体的步骤如下所示：将实体库所有实体进行文本特征降维，获取实体库；输入实体，对输入实体进行文本特征降维操作；如果实体库中实体与输入实体相同直接输出实体库实体；如果实体库中实体与输入实体不同，进行如下处理：如果输入实体长度大于7，剔除输入实体后三个字和清洗后实体进行对比，当二者至少有两个字相同时，使用首字拼音匹配或前两个字拼音字母匹配，输出该实体库实体；如果输入实体长度在[5,7]，剔除输入实体后两个字和清洗后实体进行对比，当二者至少有两个字相同时，使用首字拼音匹配或前两个字拼音字母匹配，输出该实体库实体；如果输入实体长度在[3,5]，输入实体和清洗后实体进行对比，当二者至少有两个字相同时，使用首字拼音匹配或前两个字拼音字母匹配，输出该实体库实体；如果输入实体长度在[0,3]，输入实体和清洗后实体进行全匹配，若输入实体所有字符全部在实体库中实体中，输出该实体；完成实体库初步筛选并对实体库和输入实体剔除后缀处理；权　利　要　求　书 2/4 页 3 CN 114707517 A 3

专利 一种基于开源数据事件抽取的目标跟踪方法

专利一种基于开源数据事件抽取的目标跟踪方法