说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211315874.7 (22)申请日 2022.10.26 (71)申请人 江西农业大 学 地址 330045 江西省南昌市昌北 经济技术 开发区志敏大道1 101号 (72)发明人 钱文彬 吴和清 郭熙  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 何世磊 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/332(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01)G06N 20/00(2019.01) (54)发明名称 农业病虫害 文本命名实体的方法及装置 (57)摘要 一种农业病虫害文本命名实体的方法及装 置, 该方法包括步骤: 将所述农业病虫害数据集 进行分析, 得到以句子为单位的文本句子; 将文 本句子作为源模型中LS TM模块的输入, 分别输 出 文本句子中每个字对应的前向LSTM向量、 反向 LSTM向量以及字向量; 将获得的向量进行拼接后 作为源模型中CRF模块的输入, 并输出预测的序 列标签; 将CRF模块输出的序列标签转换成逻辑 基础描述, 并将逻辑基础描述与指定知识库中的 逻辑规则进行推理匹配; 若匹配不成功, 修正序 列标签; 将修正后的序列标签以及文本句子作为 已标注数据对CRF模块的参数进行调节。 权利要求书2页 说明书8页 附图3页 CN 115374788 A 2022.11.22 CN 115374788 A 1.一种农业病虫害 文本命名实体的方法, 其特 征在于, 包括 步骤: 获取农业病虫害数据集, 并将所述农业病虫害数据集进行分析, 得到以句子为单位的 文本句子; 将所述文本句子输入Bert ‑BiLSTM‑CRF模型的LSTM模块中, 并分别输出所述文本句子 中每个字对应的前向LSTM向量、 反向LSTM向量以及字向量; 将获得的前向LSTM向量, 字向量和反向LSTM向量进行拼接, 并将拼接后的向量作为 Bert‑BiLSTM‑CRF模型中CRF模块的输入向量输入所述CRF模块中, 并输出 预测的序列标签; 将所述CRF模块输出的序列标签转换成逻辑基础描述, 并将所述逻辑基础描述与指定 知识库中的逻辑 规则进行推理匹配; 若匹配不成功, 则采用最小化 不一致性修正所述CRF模块输出的序列标签; 将修正后的序列标签以及文本句子对CRF模块的参数进行调节; 其中, 采用最小化 不一致性修正所述CRF模块输出的序列标签的步骤 包括: 判断所述逻辑基础描述中预测实体的前后是否含有修饰词; 当所述逻辑基础描述中预测实体之前含有修饰词时, 将所述序列 标签中所述预测实体 对应的开始标签向前移动, 并对开始标签之后的标签进行复制; 当所述逻辑基础描述中预测实体之后含有修饰词时, 将所述序列 标签中所述预测实体 对应的结束标签向后移动, 并对结束标签之前的标签进行复制。 2.如权利要求1所述的农业病虫害文本命名实体的方法, 其特征在于, 所述将所述文本 句子输入Bert ‑BiLSTM‑CRF模型的LSTM模块中, 并分别输出所述文本句子中每个字对应的 前向LSTM向量、 反向LSTM向量以及字向量的步骤之前还 包括: 利用2017CCKS中文电子病历的命名实体识别标注数据集对Bert ‑BiLSTM‑CRF模型进行 训练; 获取训练结果中的权重文件, 并将所述权重文件设置为所述Bert ‑BiLSTM‑CRF模型中 LSTM模块的初始化权 重。 3.如权利要求1所述的农业病虫害文本命名实体的方法, 其特征在于, 所述将所述CRF 模块输出的序列标签转换成逻辑基础描述的步骤 包括: 将所述CRF模块输出的序列标签和文本句子通过映射 函数生成逻辑基础描述。 4.如权利要求1所述的农业病虫害文本命名实体的方法, 其特征在于, 所述将所述农业 病虫害数据集进行分析, 得到以句子为单位的文本句子的步骤 包括: 对所述农业病虫害数据集进行分段、 分句处理, 去除重复语句操作, 得到以句子为单位 的文本句子 。 5.如权利要求1所述的农业病虫害文本命名实体的方法, 其特征在于, 所述将所述文本 句子输入Bert ‑BiLSTM‑CRF模型的LSTM模块中, 并分别输出所述文本句子中每个字对应的 前向LSTM向量、 反向LSTM向量以及字向量的步骤 包括: 生成所述文本句子的汉字上下文特征向量, 并作为Bert ‑BiLSTM‑CRF模型中LSTM模块 的输入, 分别输出 所述文本句子中每 个字对应的前向LSTM向量、 反向LSTM向量以及字向量。 6.一种农业病虫害 文本命名实体的装置, 其特 征在于, 包括: 分析模块, 用于获取农业病虫害数据集, 并将所述农业病虫害数据集进行分析, 得到以 句子为单位的文本句子;权 利 要 求 书 1/2 页 2 CN 115374788 A 2第一输入输出模块, 用于将所述文本句子输入Bert ‑BiLSTM‑CRF模型的LSTM模块中, 并 分别输出 所述文本句子中每 个字对应的前向LSTM向量、 反向LSTM向量以及字向量; 拼接模块, 用于将获得的前向LSTM向量, 字向量和反向LSTM向量进行拼接; 第二输入输出模块, 用于将拼接后的向量作为Bert ‑BiLSTM‑CRF模型中CRF模块的输入 向量输入所述CRF模块中, 并输出 预测的序列标签; 匹配模块, 用于将所述CRF模块输出的序列标签转换成逻辑基础描述, 并将所述逻辑基 础描述与指定知识库中的逻辑 规则进行推理匹配; 修正模块, 用于当匹配不成功时, 则采用最小化不一致性修正所述CRF模块输出的序列 标签; 参数调节模块, 用于将修 正后的序列标签以及文本句子对CRF模块的参数进行调节; 所述修正模块具体用于: 判断所述逻辑基础描述中预测实体的前后是否含有修饰词; 当所述逻辑基础描述中预测实体之前含有修饰词时, 将所述序列 标签中所述预测实体 对应的开始标签向前移动, 并对开始标签之后的标签进行复制; 当所述逻辑基础描述中预测实体之后含有修饰词时, 将所述序列 标签中所述预测实体 对应的结束标签向后移动, 并对结束标签之前的标签进行复制。 7.如权利要求6所述的农业病虫害 文本命名实体的装置, 其特 征在于, 还 包括: 训练模块, 用于利用2017CCKS中文电子病历的命名实体识别标注数据集对Bert ‑ BiLSTM‑CRF模型进行训练; 权重设置模块, 用于获取训练结果中的权重文件, 并将所述权重文件设置为所述Bert ‑ BiLSTM‑CRF模型中LSTM模块的初始化权 重。 8.如权利要求6所述的农业病虫害文本命名实体的装置, 其特征在于, 所述匹配模块用 于: 将所述CRF模块输出的序列标签和文本句子通过映射 函数生成逻辑基础描述。 9.如权利要求6所述的农业病虫害文本命名实体的装置, 其特征在于, 所述分析模块用 于: 对所述农业病虫害数据集进行分段、 分句处理, 去除重复语句操作, 得到以句子为单位 的文本句子 。权 利 要 求 书 2/2 页 3 CN 115374788 A 3

PDF文档 专利 农业病虫害文本命名实体的方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 农业病虫害文本命名实体的方法及装置 第 1 页 专利 农业病虫害文本命名实体的方法及装置 第 2 页 专利 农业病虫害文本命名实体的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。