(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211315874.7
(22)申请日 2022.10.26
(71)申请人 江西农业大 学
地址 330045 江西省南昌市昌北 经济技术
开发区志敏大道1 101号
(72)发明人 钱文彬 吴和清 郭熙
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 何世磊
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 16/332(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 7/00(2006.01)G06N 20/00(2019.01)
(54)发明名称
农业病虫害 文本命名实体的方法及装置
(57)摘要
一种农业病虫害文本命名实体的方法及装
置, 该方法包括步骤: 将所述农业病虫害数据集
进行分析, 得到以句子为单位的文本句子; 将文
本句子作为源模型中LS TM模块的输入, 分别输 出
文本句子中每个字对应的前向LSTM向量、 反向
LSTM向量以及字向量; 将获得的向量进行拼接后
作为源模型中CRF模块的输入, 并输出预测的序
列标签; 将CRF模块输出的序列标签转换成逻辑
基础描述, 并将逻辑基础描述与指定知识库中的
逻辑规则进行推理匹配; 若匹配不成功, 修正序
列标签; 将修正后的序列标签以及文本句子作为
已标注数据对CRF模块的参数进行调节。
权利要求书2页 说明书8页 附图3页
CN 115374788 A
2022.11.22
CN 115374788 A
1.一种农业病虫害 文本命名实体的方法, 其特 征在于, 包括 步骤:
获取农业病虫害数据集, 并将所述农业病虫害数据集进行分析, 得到以句子为单位的
文本句子;
将所述文本句子输入Bert ‑BiLSTM‑CRF模型的LSTM模块中, 并分别输出所述文本句子
中每个字对应的前向LSTM向量、 反向LSTM向量以及字向量;
将获得的前向LSTM向量, 字向量和反向LSTM向量进行拼接, 并将拼接后的向量作为
Bert‑BiLSTM‑CRF模型中CRF模块的输入向量输入所述CRF模块中, 并输出 预测的序列标签;
将所述CRF模块输出的序列标签转换成逻辑基础描述, 并将所述逻辑基础描述与指定
知识库中的逻辑 规则进行推理匹配;
若匹配不成功, 则采用最小化 不一致性修正所述CRF模块输出的序列标签;
将修正后的序列标签以及文本句子对CRF模块的参数进行调节;
其中, 采用最小化 不一致性修正所述CRF模块输出的序列标签的步骤 包括:
判断所述逻辑基础描述中预测实体的前后是否含有修饰词;
当所述逻辑基础描述中预测实体之前含有修饰词时, 将所述序列 标签中所述预测实体
对应的开始标签向前移动, 并对开始标签之后的标签进行复制;
当所述逻辑基础描述中预测实体之后含有修饰词时, 将所述序列 标签中所述预测实体
对应的结束标签向后移动, 并对结束标签之前的标签进行复制。
2.如权利要求1所述的农业病虫害文本命名实体的方法, 其特征在于, 所述将所述文本
句子输入Bert ‑BiLSTM‑CRF模型的LSTM模块中, 并分别输出所述文本句子中每个字对应的
前向LSTM向量、 反向LSTM向量以及字向量的步骤之前还 包括:
利用2017CCKS中文电子病历的命名实体识别标注数据集对Bert ‑BiLSTM‑CRF模型进行
训练;
获取训练结果中的权重文件, 并将所述权重文件设置为所述Bert ‑BiLSTM‑CRF模型中
LSTM模块的初始化权 重。
3.如权利要求1所述的农业病虫害文本命名实体的方法, 其特征在于, 所述将所述CRF
模块输出的序列标签转换成逻辑基础描述的步骤 包括:
将所述CRF模块输出的序列标签和文本句子通过映射 函数生成逻辑基础描述。
4.如权利要求1所述的农业病虫害文本命名实体的方法, 其特征在于, 所述将所述农业
病虫害数据集进行分析, 得到以句子为单位的文本句子的步骤 包括:
对所述农业病虫害数据集进行分段、 分句处理, 去除重复语句操作, 得到以句子为单位
的文本句子 。
5.如权利要求1所述的农业病虫害文本命名实体的方法, 其特征在于, 所述将所述文本
句子输入Bert ‑BiLSTM‑CRF模型的LSTM模块中, 并分别输出所述文本句子中每个字对应的
前向LSTM向量、 反向LSTM向量以及字向量的步骤 包括:
生成所述文本句子的汉字上下文特征向量, 并作为Bert ‑BiLSTM‑CRF模型中LSTM模块
的输入, 分别输出 所述文本句子中每 个字对应的前向LSTM向量、 反向LSTM向量以及字向量。
6.一种农业病虫害 文本命名实体的装置, 其特 征在于, 包括:
分析模块, 用于获取农业病虫害数据集, 并将所述农业病虫害数据集进行分析, 得到以
句子为单位的文本句子;权 利 要 求 书 1/2 页
2
CN 115374788 A
2第一输入输出模块, 用于将所述文本句子输入Bert ‑BiLSTM‑CRF模型的LSTM模块中, 并
分别输出 所述文本句子中每 个字对应的前向LSTM向量、 反向LSTM向量以及字向量;
拼接模块, 用于将获得的前向LSTM向量, 字向量和反向LSTM向量进行拼接;
第二输入输出模块, 用于将拼接后的向量作为Bert ‑BiLSTM‑CRF模型中CRF模块的输入
向量输入所述CRF模块中, 并输出 预测的序列标签;
匹配模块, 用于将所述CRF模块输出的序列标签转换成逻辑基础描述, 并将所述逻辑基
础描述与指定知识库中的逻辑 规则进行推理匹配;
修正模块, 用于当匹配不成功时, 则采用最小化不一致性修正所述CRF模块输出的序列
标签;
参数调节模块, 用于将修 正后的序列标签以及文本句子对CRF模块的参数进行调节;
所述修正模块具体用于:
判断所述逻辑基础描述中预测实体的前后是否含有修饰词;
当所述逻辑基础描述中预测实体之前含有修饰词时, 将所述序列 标签中所述预测实体
对应的开始标签向前移动, 并对开始标签之后的标签进行复制;
当所述逻辑基础描述中预测实体之后含有修饰词时, 将所述序列 标签中所述预测实体
对应的结束标签向后移动, 并对结束标签之前的标签进行复制。
7.如权利要求6所述的农业病虫害 文本命名实体的装置, 其特 征在于, 还 包括:
训练模块, 用于利用2017CCKS中文电子病历的命名实体识别标注数据集对Bert ‑
BiLSTM‑CRF模型进行训练;
权重设置模块, 用于获取训练结果中的权重文件, 并将所述权重文件设置为所述Bert ‑
BiLSTM‑CRF模型中LSTM模块的初始化权 重。
8.如权利要求6所述的农业病虫害文本命名实体的装置, 其特征在于, 所述匹配模块用
于:
将所述CRF模块输出的序列标签和文本句子通过映射 函数生成逻辑基础描述。
9.如权利要求6所述的农业病虫害文本命名实体的装置, 其特征在于, 所述分析模块用
于:
对所述农业病虫害数据集进行分段、 分句处理, 去除重复语句操作, 得到以句子为单位
的文本句子 。权 利 要 求 书 2/2 页
3
CN 115374788 A
3
专利 农业病虫害文本命名实体的方法及装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:11上传分享