(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210248668.2
(22)申请日 2022.03.14
(71)申请人 大连海洋大学
地址 116036 辽宁省大连市沙河口区黑石
礁街道52号
(72)发明人 张思佳 姜鑫 喻文甫 毕甜甜
沙明洋 王梓铭 刘明剑
(74)专利代理 机构 西安铭泽知识产权代理事务
所(普通合伙) 61223
专利代理师 韩晓娟
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/216(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)G06F 16/35(2019.01)
(54)发明名称
一种水产动物和疾病文本关系抽取方法
(57)摘要
本发明公开了一种水产动物疾病文本的实
体语义关系抽取方法, 包括: 收集水产动物疾病
文本, 使用标注工具对文本数据标注, 将标注完
的数据集输入BERT模型, 自动获取词语语义上的
特征、 并表示和抽取深层次语义, 得到第二文本,
将标签信息嵌入第二文本的词和标签的联合空
间、 并与每个字进行联合学习, 输出第三文本, 将
第三文本输入Bil stm模型进行学习, 获取长距 离
词的相关性和上下文信息, 得到第四文本, 将第
四文本送入到Attention层, 减少文本序列中关
键信息的丢失, 获得第五文本, 将第五文本输入
CRF层, 得到水产动物疾病文本实体关系联合抽
取的结果。 该方法可有效地解决篇章级关系抽取
中重叠关系抽取不 准确的问题。
权利要求书1页 说明书4页 附图2页
CN 115033703 A
2022.09.09
CN 115033703 A
1.一种水产动物疾病文本的实体 语义关系抽取 方法, 其特 征在于, 包括:
收集水产动物疾病文本;
使用标注工具对文本数据标注;
将标注完的数据集输入BERT模型, 自动获取词语义上的特征、 并表示和抽取深层次语
义, 得到第二文本;
对第二文本进行标签嵌入, 将标签信息嵌入第二文本的词和标签的联合空间、 并与每
个字进行 联合学习, 输出第三文本;
将联合学习的第三文本输入Bilstm模型进行学习, 对学习到的标签嵌入层的输出信息
进一步语义编码, 获取长距离词的相关性和上 下文信息, 得到第四文本;
将第四文本送入到Attention层, 在大量信息中集 中注意力地处理有用信息, 减少文本
序列中关键信息的丢失, 获得第五文本;
将第五文本输入CRF层, 得到最终的预测标签序列, 进而得到水产动物疾病文本实体语
义关系联合抽取的结果。
2.如权利要求1所述的一种水产动物疾病 文本的实体语义关系抽取方法, 其特征在于,
还包括对收集到的水产动物疾病文本进行 数据预处 理, 其包括:
通过用Pytho n语句对网络上 水产疾病网站进行 数据爬取;
整合文献、 书籍 上的数据;
清洗无用数据。
3.如权利要求1所述的一种水产动物疾病 文本的实体语义关系抽取方法, 其特征在于,
还包括将语料库中的语料分成两部分, 一部分为训练集一部分为测试集, 采用标注工具对
训练集中的文本数据进行 标注。
4.如权利要求3所述的一种水产动物疾病 文本的实体语义关系抽取方法, 其特征在于,
所述采用标注工具对训练集中的文本数据进行 标注的标注方法, 包括:
疾病的标签设为固定标签, B ‑H‑1表示实体头 部, I‑H‑1表示实体中间部分;
实体标签均采用HB表示实体元素的头部, HI表示实体元素的中间部分, O则表示实体元
素不属于任何实体。
5.如权利要求1所述的一种水产动物疾病 文本的实体语义关系抽取方法, 其特征在于,
所述得到最终的预测标签序列的步骤, 包括:
设定输入序列X=(X1, X2, ..., Xn);
获得Attention层输出概 率矩阵P;
CRF层输出的标注序列Y=(Y1, Y2, ..., Yn);
根据下面公式计算预测序列得分S(X, Y), 得分最高的序列为 最终的输出序列;
其中, Ayi,yi+1表示概率中转移矩阵由标注Yi转移到标注Yi+1的概率, Pi, yi表示被Xi标注为
Yi的概率。权 利 要 求 书 1/1 页
2
CN 115033703 A
2一种水产动物和疾病文本关系抽取方 法
技术领域
[0001]本发明涉及水产疾病防治技术领域, 更具体的涉及一种水产动物疾病文本 的实
体语义关系抽取 方法。
背景技术
[0002]在水产养殖过程中, 水产动 物的疾病是影响养殖户经济的一大因素, 通过 将水生
动物疾病领域知识与计算机相结合, 构建水生动物疾病知识图谱, 使养 殖户在水产病害发
生时能够得到及时准确诊断, 正确得当处治意见。 关系抽取 是知识图谱构建的重要 前期工
作之一, 将无结构的文本转化成格式统一的关系 数据, 将文本数据中的特征进行提取, 具
有重要的意 义。
[0003]Zheng等首次提出基于新标注策略的实体关系联合抽取方法。 该方法把包 含命名
实体识别与关系分类两个任务的联合学习模型转变成序列标注问题, 取 得很好的效果
(ZHENG S,HAO Y,LU D,et al.Joint entity and relation extraction based on a
hybrid neural network[J].Neurocomputin g,2016,257.)。 张玉坤等在 药 品说明书语料
库中, 把卷积神经网络与 支持向量机、 条件随机场相结合, 构建 了联合神经网络模 型, 取得
了不错的效果(张玉坤,刘茂福,胡慧君.基于联合 神经网络模型的中文医疗实体分类与关
系抽取[J].计算机工程与科学, 2019,41(06):1110 ‑1118.)。 在水稻病虫草害领域, 沈利言
等设计了一种基于新 标注模式的双长 短期记忆网络与 注意力机制结合的水稻病虫草害与
药剂的实 体关系联合抽取算法, 解决了文本中含有大量实体没有明确 边界以及药剂与病
虫草害实体之间存在大量多关系的技术问题并得到了不错的效果(沈利言,姜 海燕,胡滨,
等.水稻病虫草害与药剂实体关系联合抽取算法[J].南京农业大 学学报,2020,43(06):
1151‑1161.)。 在金融领域, 唐晓波等结合金融文本特征 提出了新的序列标注模式并构建
了基于BERT的金融领域实体关系 联合抽取模 型, 实现了对金融文本中实体间重叠关系的
识别, F值达到了54.3%(唐晓波, 刘志源.金融领域文本序列标注与 实体关系联合抽取研
究[J].情报科学, 2021,39(05):3 ‑11.)。 在医疗领域, 曹明宇等提出了一种基于神经网络
的药物 实体与关系 联合抽取方法, 使用了一种新标注模式, 将药物实体及关系的联合 抽
取转化为端对端的序列标注任务, F值达到了67.3%(曹明宇,杨志豪,罗凌, 等.基于神经
网络的药物实体与关系联合抽取[ J].计算机研究与发展, 2019,56(07): 1432‑1440.)。 然
而, 上述这些方法限制了捕获长跨度句子中实体 语义信息, 它们不能从篇章级的关系示例
中提取一些新的有效特 征。
发明内容
[0004]本发明实施例提供一种水产动物疾病文本的实体 语义关系抽取 方法, 包 括:
[0005]收集水产动物疾病文本, 构建水产动物疾病语料库;
[0006]采用标注工具对文本数据集使用标注工具对文本数据标注;
[0007]将标注完的数据集输入BE RT模型, 自动获取词语语义上的特征、 并表示 和抽取深说 明 书 1/4 页
3
CN 115033703 A
3
专利 一种水产动物和疾病文本关系抽取方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:54:25上传分享