(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210904197.6
(22)申请日 2022.07.29
(71)申请人 燕山大学
地址 066004 河北省秦皇岛市海港区河北
大街438号
(72)发明人 宫继兵 李青 赵金烨 房小涵
赵祎 丛方鹏
(74)专利代理 机构 石家庄众志华清知识产权事
务所(特殊普通 合伙) 13123
专利代理师 田秀芬
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/295(2020.01)
G06F 40/242(2020.01)
G06F 16/903(2019.01)G06N 5/02(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于表示学习的实体发现和实体链接
联合优化方法
(57)摘要
本发明公开了一种基于表示学习的实体发
现和实体链接联合优化方法, 属于深度学习和自
然语言处理技术领域, 所述优化方法包括: 步骤
1, 获取数据集; 步骤2, 构建锚文本词典; 步骤3,
定义并构建片段循环神经网络模型进行实体提
取算法; 步骤4, 实体链接的特征选取; 步骤5, 神
经排序模型的构建。 本发明通过构建基于表示学
习的实体发现和实体链接联合的模型, 其中, 基
于片段式的循环神经网络可以直接对实体边界
识别进行优化, 而实体链接的信息又可以帮助实
体发现进行边界识别, 有效地解决了实体边界不
准确影响实体链接的问题; 有效避免了实体边界
不准确影 响实体链接效果的问题, 并且可以同时
优化实体发现和实体链接的结果。
权利要求书2页 说明书5页 附图2页
CN 115329093 A
2022.11.11
CN 115329093 A
1.一种基于表示学习的实体发现和实体链接联合优化方法, 其特征在于: 实体链接的
结果能够对实体发现进行优化, 包括以下步骤:
步骤1, 获取 数据集;
步骤2, 构建锚文本词典;
步骤3, 定义并构建片段循环神经网络模型进行实体提取算法;
步骤4, 实体链接的特 征选取;
步骤5, 神经排序模型的构建。
2.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法, 其
特征在于: 步骤2中, 具体包括:
2.1, 通过抽取百度百科的锚文本, 构建锚文本词典, 词典中的每个键看作是一个实体
的提及, 对应的值看作是知识库中对应该实体的提及;
2.2, 引入实体提及m的先验概 率, 定义所述先验概 率为:
link_prob(m)=freq(m)|count(m)
式中, freq(m)是m作为锚文本出现的次数, count(m)是m在语料库中所有出现的次数;
2.3, 进行 过滤, 去除噪声。
3.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法, 其
特征在于: 步骤3中, 具体包括:
3.1, 输入层w1,w2, …,wm是字符向量和预先训练的词向量的拼接, 字符向量通过一个
双向的LSTM网络进行 学习, 上下文LSTM模型对上 下文特征进行建模;
3.2, 将实体发现的处理单元由单个词转化为词序列片段, 将输入序列进行切分, 直接
预测词序列片段的长度, 并给每个片段标记一个标签, 对实体进 行分类, 利用片段循环神经
网络进行实体发现, 标签空间是y={LOC,ORG,PER,MISC,O}, 目的是在输入 的词序列<w1,
w2,…,wm>上的最大化联合 概率分布: p(y,z|x)。
4.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法, 其
特征在于: 步骤4中, 所述实体链接特 征选取的约束条件 包括:
(1)实体相关特 征, 包括实体的先验概 率, 先验概 率为:
link_prob(m) = freq(m)|count(m) (1)
式中, freq(m)是m作为锚文本出现的次数, count(m)是m在语料库中所有出现的次数,
表示实体在 知识库中出现的概 率;
(2)实体和上下文相似度, 表示实体和实体提及上下文文本之间的相似度, 由于上下文
中未必所有的词都对实体链接有帮助, 因此我们采用注意力加权的上下文词向量的平均来
表示上下文向量; 如下公式所示:
式中, akj表示第k个单词的注意力权 重, 用来挑选上 下文中与实体最相关的词;
(3)实体和实体提及的相似度, 使用如下公式进行计算:
权 利 要 求 书 1/2 页
2
CN 115329093 A
2式中,
表示实体名称和实体提及字符串的编辑距离, len(s)表示
字符串的长度;
(4)实体和上下文中其他实体的相似度, 表示了文本中实体的一致性, 使用上下文实体
集合中所有实体向量的平均向量来表示上下文实体集合, 使用候选实体向量和上下文实体
集合向量的余弦相似度来表示两者之间的相似度; 在预测时, 对于第一个处理的实体来说,
上下文实体集合为空, 这时强制设置候选实体集合中所有实体的该特征值为1, 因此, 对于
第一个被处理的实体提及 ‑候选实体集 合来说, 实体链接的结果取决于其它特 征。
5.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法, 其
特征在于: 步骤5中, 具体包括:
5.1, 经过LSTM模型训练的词的表示和词的字符;
5.2, 词和实体联合表示。权 利 要 求 书 2/2 页
3
CN 115329093 A
3
专利 一种基于表示学习的实体发现和实体链接联合优化方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:28上传分享