全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210248668.2 (22)申请日 2022.03.14 (71)申请人 大连海洋大学 地址 116036 辽宁省大连市沙河口区黑石 礁街道52号 (72)发明人 张思佳 姜鑫 喻文甫 毕甜甜  沙明洋 王梓铭 刘明剑  (74)专利代理 机构 西安铭泽知识产权代理事务 所(普通合伙) 61223 专利代理师 韩晓娟 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06F 16/35(2019.01) (54)发明名称 一种水产动物和疾病文本关系抽取方法 (57)摘要 本发明公开了一种水产动物疾病文本的实 体语义关系抽取方法, 包括: 收集水产动物疾病 文本, 使用标注工具对文本数据标注, 将标注完 的数据集输入BERT模型, 自动获取词语语义上的 特征、 并表示和抽取深层次语义, 得到第二文本, 将标签信息嵌入第二文本的词和标签的联合空 间、 并与每个字进行联合学习, 输出第三文本, 将 第三文本输入Bil stm模型进行学习, 获取长距 离 词的相关性和上下文信息, 得到第四文本, 将第 四文本送入到Attention层, 减少文本序列中关 键信息的丢失, 获得第五文本, 将第五文本输入 CRF层, 得到水产动物疾病文本实体关系联合抽 取的结果。 该方法可有效地解决篇章级关系抽取 中重叠关系抽取不 准确的问题。 权利要求书1页 说明书4页 附图2页 CN 115033703 A 2022.09.09 CN 115033703 A 1.一种水产动物疾病文本的实体 语义关系抽取 方法, 其特 征在于, 包括: 收集水产动物疾病文本; 使用标注工具对文本数据标注; 将标注完的数据集输入BERT模型, 自动获取词语义上的特征、 并表示和抽取深层次语 义, 得到第二文本; 对第二文本进行标签嵌入, 将标签信息嵌入第二文本的词和标签的联合空间、 并与每 个字进行 联合学习, 输出第三文本; 将联合学习的第三文本输入Bilstm模型进行学习, 对学习到的标签嵌入层的输出信息 进一步语义编码, 获取长距离词的相关性和上 下文信息, 得到第四文本; 将第四文本送入到Attention层, 在大量信息中集 中注意力地处理有用信息, 减少文本 序列中关键信息的丢失, 获得第五文本; 将第五文本输入CRF层, 得到最终的预测标签序列, 进而得到水产动物疾病文本实体语 义关系联合抽取的结果。 2.如权利要求1所述的一种水产动物疾病 文本的实体语义关系抽取方法, 其特征在于, 还包括对收集到的水产动物疾病文本进行 数据预处 理, 其包括: 通过用Pytho n语句对网络上 水产疾病网站进行 数据爬取; 整合文献、 书籍 上的数据; 清洗无用数据。 3.如权利要求1所述的一种水产动物疾病 文本的实体语义关系抽取方法, 其特征在于, 还包括将语料库中的语料分成两部分, 一部分为训练集一部分为测试集, 采用标注工具对 训练集中的文本数据进行 标注。 4.如权利要求3所述的一种水产动物疾病 文本的实体语义关系抽取方法, 其特征在于, 所述采用标注工具对训练集中的文本数据进行 标注的标注方法, 包括: 疾病的标签设为固定标签, B ‑H‑1表示实体头 部, I‑H‑1表示实体中间部分; 实体标签均采用HB表示实体元素的头部, HI表示实体元素的中间部分, O则表示实体元 素不属于任何实体。 5.如权利要求1所述的一种水产动物疾病 文本的实体语义关系抽取方法, 其特征在于, 所述得到最终的预测标签序列的步骤, 包括: 设定输入序列X=(X1, X2, ..., Xn); 获得Attention层输出概 率矩阵P; CRF层输出的标注序列Y=(Y1, Y2, ..., Yn); 根据下面公式计算预测序列得分S(X, Y), 得分最高的序列为 最终的输出序列; 其中, Ayi,yi+1表示概率中转移矩阵由标注Yi转移到标注Yi+1的概率, Pi, yi表示被Xi标注为 Yi的概率。权 利 要 求 书 1/1 页 2 CN 115033703 A 2一种水产动物和疾病文本关系抽取方 法 技术领域 [0001]本发明涉及水产疾病防治技术领域, 更具体的涉及一种水产动物疾病文本  的实 体语义关系抽取 方法。 背景技术 [0002]在水产养殖过程中, 水产动 物的疾病是影响养殖户经济的一大因素, 通过  将水生 动物疾病领域知识与计算机相结合, 构建水生动物疾病知识图谱, 使养  殖户在水产病害发 生时能够得到及时准确诊断, 正确得当处治意见。 关系抽取  是知识图谱构建的重要 前期工 作之一, 将无结构的文本转化成格式统一的关系  数据, 将文本数据中的特征进行提取, 具 有重要的意 义。 [0003]Zheng等首次提出基于新标注策略的实体关系联合抽取方法。 该方法把包  含命名 实体识别与关系分类两个任务的联合学习模型转变成序列标注问题, 取  得很好的效果 (ZHENG S,HAO Y,LU D,et al.Joint  entity and relation  extraction based  on a  hybrid neural network[J].Neurocomputin g,2016,257.)。 张玉坤等在 药 品说明书语料 库中, 把卷积神经网络与 支持向量机、 条件随机场相结合, 构建  了联合神经网络模 型, 取得 了不错的效果(张玉坤,刘茂福,胡慧君.基于联合  神经网络模型的中文医疗实体分类与关 系抽取[J].计算机工程与科学,  2019,41(06):1110 ‑1118.)。 在水稻病虫草害领域, 沈利言 等设计了一种基于新  标注模式的双长 短期记忆网络与 注意力机制结合的水稻病虫草害与 药剂的实  体关系联合抽取算法, 解决了文本中含有大量实体没有明确 边界以及药剂与病   虫草害实体之间存在大量多关系的技术问题并得到了不错的效果(沈利言,姜  海燕,胡滨, 等.水稻病虫草害与药剂实体关系联合抽取算法[J].南京农业大  学学报,2020,43(06): 1151‑1161.)。 在金融领域, 唐晓波等结合金融文本特征  提出了新的序列标注模式并构建 了基于BERT的金融领域实体关系 联合抽取模  型, 实现了对金融文本中实体间重叠关系的 识别, F值达到了54.3%(唐晓波,  刘志源.金融领域文本序列标注与 实体关系联合抽取研 究[J].情报科学,  2021,39(05):3 ‑11.)。 在医疗领域, 曹明宇等提出了一种基于神经网络 的药物 实体与关系 联合抽取方法, 使用了一种新标注模式, 将药物实体及关系的联合  抽 取转化为端对端的序列标注任务, F值达到了67.3%(曹明宇,杨志豪,罗凌,  等.基于神经 网络的药物实体与关系联合抽取[ J].计算机研究与发展,  2019,56(07): 1432‑1440.)。 然 而, 上述这些方法限制了捕获长跨度句子中实体  语义信息, 它们不能从篇章级的关系示例 中提取一些新的有效特 征。 发明内容 [0004]本发明实施例提供一种水产动物疾病文本的实体 语义关系抽取 方法, 包 括: [0005]收集水产动物疾病文本, 构建水产动物疾病语料库; [0006]采用标注工具对文本数据集使用标注工具对文本数据标注; [0007]将标注完的数据集输入BE RT模型, 自动获取词语语义上的特征、 并表示  和抽取深说 明 书 1/4 页 3 CN 115033703 A 3

.PDF文档 专利 一种水产动物和疾病文本关系抽取方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种水产动物和疾病文本关系抽取方法 第 1 页 专利 一种水产动物和疾病文本关系抽取方法 第 2 页 专利 一种水产动物和疾病文本关系抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。