(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211050793.9
(22)申请日 2022.08.30
(71)申请人 北京睿企信息科技有限公司
地址 100013 北京市东城区和平里 北街6号
6号楼一层101室
申请人 日照睿安信息科技有限公司
(72)发明人 于伟 靳雯 赵洲洋 石江枫
王全修 吴凡
(74)专利代理 机构 北京锺维联合知识产权代理
有限公司 1 1579
专利代理师 李慧敏
(51)Int.Cl.
G06K 9/62(2022.01)
G06F 40/30(2020.01)
G06F 40/295(2020.01)G06F 40/268(2020.01)
(54)发明名称
一种基于关系模型的指代消歧的训练方法
及系统
(57)摘要
本发明涉及人工智能技术领域, 具体涉及一
种基于关系模 型的指代消歧的训练方法及系统,
该方法将任意一个样本中的所有指代词作为主
语分别标注 为主语标签形成主语训练数据; 按照
指代词出现的顺序, 在当前指代词为主语时, 将
当前指代词的两侧添加标记符并将上一个指代
词作为宾语且标注为关系标签形成关系训练数
据, 获取所有指代词作为主语时对应的关系训练
数据, 得到关系训练集; 获取主语训练数据和关
系训练集中每个字符的特征向量, 将所有样本的
主语训练数据、 关系训练集和特征向量输入关系
模型中进行训练, 使关系模型提取出正确的关
系, 解决了目前关系模型无法识别多次出现的同
一个指代词与实体之间的关系的问题。
权利要求书2页 说明书5页 附图1页
CN 115358341 A
2022.11.18
CN 115358341 A
1.一种基于关系模型的指代消歧的训练方法, 其特 征在于, 该训练方法包括:
S100, 获取训练集T, T中包 括n个文本样本T={T1,T2,…,Tn}, 其中第i个文本样本Ti中包
括m个实体Sui={Sui,1,Sui,2,…,Sui,m}和R(j)个指代Ti中第j个实体Sui,j的指代词
Z中元素的顺序是按照指代词在Ti中出现的顺序排序, i的取值范围
为1到n, R(j)的函数值 为整数且 满足
j的取值范围为1到m;
S200, 将Ti中的SUM个指代词分别标记为主语标签, 得到Ti的主语训练数据;
S300, 将文本样本Ti中的任意一个指代词作为主语标注关系标签得到一条关系训练数
据, 获取SUM个指代词的关系训练数据集; 其中, 第r个指代Sui,j的指代词
作为主语的关
系训练数据为: 在Ti中
的两侧分别添加第一标识符和第二 标识符, 得到调整后的Ti; 将调
整后的Ti中第r‑1个指代Sui,j的指代词
作为宾语, 将宾语标注为指代关系标签; 当r=1
时, 将Sui,j作为宾语且标注为指代关系标签; 其中, r的取值范围为1到R;
S400, 获取主语训练数据和关系训练数据集中每个字符的特征向量, 将n个文本样本T
中所有文本样本的主语训练数据、 关系训练数据集和特征向量输入关系模型中, 对关系模
型进行训练。
2.根据权利要求1所述的基于关系模型的指代消歧的训练方法, 其特征在于, 所述步骤
S400之后还包括后处 理步骤:
S520, 获取关系模型输出的具有K条关系的关系列表L={L1,L2,…LK}, 其中第k条关系
列表为{Sk,Pk,Ok}, 其中Sk为预测的主语实体, Pk为预测的关系, Ok为预测的宾语;
S540, 在Lk中的Pk为指代关系时, 将Lk中的{Sk,Ok}添加到连通图集合中, 其中k的取值范
围为1到K;
S560, 根据连通图集 合创建实体映射表B。
3.根据权利要求1所述的基于关系模型的指代消歧的训练方法, 其特征在于, 所述S560
之后, 还包括:
S580, 在Lk中的Pk为非指代关系时, 根据Lk中的指代词查询B, 得到相应 的命名实体; 利
用得到的命名实体替换Lk中的指代词, 得到 重建的关系。
4.根据权利要求1所述的基于关系模型的指代消歧的训练方法, 其特征在于, 所述第 一
标识符和 第二标识符均为成对标识符和至少一个字母构成的组合标识符, 其中字母位于成
对标识符的中间位置 。
5.根据权利要求1所述的基于关系模型的指代消歧的训练方法, 其特征在于, 第 一标识
符和第二标识符分别对应一个特 征向量。
6.根据权利要求1所述的基于关系模型的指代消歧的训练方法, 其特征在于, 所述特征
向量包括相应字符的字向量、 位置向量和段向量。
7.根据权利要求1所述的基于关系模型的指代消歧的训练方法, 其特征在于, 所述实体
为人名实体, 所述指代词为人称代词。
8.根据权利要求1所述的基于关系模型的指代消歧的训练方法, 其特征在于, 所述关系
模型为BERT模型。
9.一种基于关系模型的指代消歧的训练系统, 其特征在于, 所述系统包括处理器和非权 利 要 求 书 1/2 页
2
CN 115358341 A
2瞬时性计算机可读存储介质, 所述非瞬时性计算机可读存储介质中存储有至少一条指 令或
至少一段程序, 所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利
要求1‑8中任意一项所述的训练方法。权 利 要 求 书 2/2 页
3
CN 115358341 A
3
专利 一种基于关系模型的指代消歧的训练方法及系统
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:58上传分享