全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210395175.1 (22)申请日 2022.04.15 (71)申请人 四川省农业科 学院农业信息与农村 经济研究所 地址 610000 四川省成 都市锦江区外东沙 河大桥侧 (72)发明人 刘永波 高文波 陈春燕 黄强  何鹏 许钰莎  (74)专利代理 机构 北京康盛知识产权代理有限 公司 11331 专利代理师 李欣芮 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/81(2019.01) G06F 16/951(2019.01)G06F 16/28(2019.01) G06F 16/35(2019.01) (54)发明名称 一种茶叶知识图谱的构建方法 (57)摘要 本发明提供一种茶叶知识图谱的构建方法, 其能够对茶叶产业中的命名实体进行识别, 借助 茶叶专家经验完成本体构建, 结合双向长短时记 忆网络及条件随机场模型, 自动提取非结构化数 据特征, 提高知 识抽取效率, 构建出茶叶品种、 茶 叶产品、 茶树生长环境、 茶树育种、 茶园建设、 茶 园修剪、 鲜叶采摘等茶叶生产过程中13个环节的 知识图谱, 该构建方法包括如下步骤: 建立茶叶 领域知识图谱数据库; 构建茶叶知识图谱本体, 定义出每个二级图谱的实体、 关系和属性; 抽取 数据, 采用网络爬虫和数据解析的方式对半结构 化数据进行抽取; 采用BERT_B  I LSTM_CRF模型 对非结构化数据抽取; 将抽取出来的实体、 关系 和属性作为实体 关系三元组数据存入知识库内; 储存、 展示数据。 权利要求书2页 说明书10页 附图4页 CN 114780740 A 2022.07.22 CN 114780740 A 1.一种茶叶知识图谱的构建方法, 其特 征在于, 所述构建方法包括如下步骤: 建立茶叶领域知识图谱数据库, 所述茶叶领域知识图谱数据库包括百科网站数据库、 茶叶百科全书数据库 组合构成的通用数据库, 以及茶叶专家数据库构成的特定数据库, 提 取所述通用数据库和所述特定数据库中的半结构化数据和非结构化数据; 构建茶叶知识图谱本体, 根据 所述茶叶领域知识图谱数据库构建出茶叶全生产过程的 茶叶知识图谱, 所述茶叶全生产过程的茶叶知识图谱包括13大类一级图谱, 每一大类所述 一级图谱下细分出多个二级图谱, 同时定义出每 个所述二级图谱的实体、 关系和 属性; 抽取数据, 采用网络爬虫和数据解析的方式对所述半结构化数据进行抽取; 采用BERT_ BILSTM_CRF模型对所述非结构化数据抽取; 将抽取出来的实体、 关系和属性作为实体关系 三元组数据存 入知识库内; 储存和展示数据, 利用D3.js可视化框架将数据可视化, 并将形成的知识图谱存储于 Neo4j图数据库中。 2.根据权利要求1所述的茶叶知识图谱的构建方法, 其特征在于, 所述茶叶知识图谱的 构建方法具体包括: 将百科网站数据库和茶叶百科全书数据库中的数据相结合, 利用双向 长短时记忆网络及随机场模型提取茶叶产业文本信息的特征, 同时借助茶叶专家数据库中 的茶叶专 家经验对茶叶产业 三元组数据的抽取, 形成茶叶知识图谱。 3.根据权利要求1所述的茶叶知识图谱的构建方法, 其特征在于, 所述13大类一级图谱 为: 茶叶品种、 茶叶产品、 茶树生长环境、 茶树育种、 茶园建设、 茶园水分管理、 茶园耕作管 理、 茶园施肥、 茶园修剪、 鲜叶采摘、 茶叶灾害防治技 术、 茶树病害和茶树虫害。 4.根据权利要求1所述的茶叶知识图谱的构建方法, 其特征在于, 所述实体、 关系和属 性根据茶叶生长特性定义而成。 5.根据权利要求1所述的茶叶知识图谱的构建方法, 其特征在于, 所述半结构化数据的 抽取方法如下: 采用Python+Scrapy抽 取百科网站数据库 中的实体关系三元组, 将抽 取的所述实体关 系三元组作为输入, 将抽取 数据存入Neo4j数据库。 6.根据权利要求1所述的茶叶知识图谱的构建方法, 其特征在于, 所述非结构化数据的 抽取方法如下: BIO数据标注, 先采用OCR文字识别技术将茶叶百科全书数据库中的PDF文字转换电子 数据, 再对所述电子数据采用BIO方式进 行序列标注, 得到主实体所对应的各个实体 关系三 元组; 实体关系三元组数据抽取, 首先将标注语料经过BERT预训练语言模型获得相应的词向 量; 之后把词向量输入到BiLSTM模块中做双向编码处理, 输出每个标签对应的预测值; 最后 利用CRF条件随机对BiLSTM模块的输出结果进 行解码,得到一个预测标注序列,通过对序列 中的各个实体进行提取分类,完成中文实体识别的整个流 程。 7.根据权利要求1所述的茶叶知识图谱的构建方法, 其特征在于, 所述储存和展示数据 的具体方法包括: 采用Neo4j数据库自带Cypher查询语言将解析获取的实体节点和关系数 据保存在.csv文件中, 并通过LOAD  CSV的方式导入关系和节点, 最后将数据封装利用D3.js 可视化框架将数据可视化。 8.根据权利要求1所述的茶叶知识图谱的构建方法, 其特征在于, 所述BERT_BILSTM_权 利 要 求 书 1/2 页 2 CN 114780740 A 2CRF模型的训练方式包括: 采用NVIDIA  Quadro RTX 4000显卡对模型进行训练。 9.根据权利要求1所述的茶叶知识图谱的构建方法, 其特征在于, 所述Neo4j图数据库 中, 知识图谱的实体和概念作为图顶点, 实体属性和关系作为 边, 以图的形式进行存 储。权 利 要 求 书 2/2 页 3 CN 114780740 A 3

.PDF文档 专利 一种茶叶知识图谱的构建方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种茶叶知识图谱的构建方法 第 1 页 专利 一种茶叶知识图谱的构建方法 第 2 页 专利 一种茶叶知识图谱的构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:55:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。