(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210355791.4
(22)申请日 2022.04.06
(71)申请人 国网浙江省电力有限公司经济技 术
研究院
地址 310008 浙江省杭州市上城区南复路1
号水澄大厦
申请人 上海交通大 学
(72)发明人 吴冰 刘伟军 宋元斌 胡锡燎
诸言涵 曹金浩 张波 陈科技
王淑红 王婷婷 张琳琳 杨嘉睿
陈赛慧 杨铁涵 黄江倩 林贺
(74)专利代理 机构 上海汉声知识产权代理有限
公司 3123 6
专利代理师 胡晶(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06F 40/284(2020.01)
G06F 40/211(2020.01)
G06N 5/04(2006.01)
(54)发明名称
ISO 19650标准文本的多语句关联分析方法
及系统
(57)摘要
本发明提供了一种ISO 19650标准文本的多
语句关联分析方法及系统, 涉及信息处理技术领
域, 该方法包括: 步骤S1: 对ISO 19650标准系列
中的语句进行分词和换词处理, 获得经过预处理
的语句; 步骤S2: 对经过预处理的语句进行依存
句法分析, 获取语句中词语之间的依存关系; 步
骤S3: 根据依存关系到语义关系的转换规则, 针
对语句中词语间的依存关系进行推理, 得到单个
语句中词语之间的语义关系; 步骤S4: 将单个语
句中的语义关系导入图数据库, 将ISO标准的本
体模型导入图数据库, 建立各个句子中词语与本
体模型中词语的链接, 推理多个语句之间的关联
关系。 本发明能够克服语料库不足导致的ISO
19650标准中文文本的语义信息提取困难, 同时
也有助于解决ISO 19650语句间关联和参引的自
动分析面临的困难。
权利要求书2页 说明书7页 附图4页
CN 114742068 A
2022.07.12
CN 114742068 A
1.一种ISO 19650标准文本的多语句关联分析 方法, 其特 征在于, 包括:
步骤S1: 对ISO 19650标准系列中的语句进行分词和换词处理, 获得经过预处理的语
句;
步骤S2: 对经 过预处理的语句进行依存句法分析, 获取语句中词语之间的依存关系;
步骤S3: 根据依存关系到语义关系的转换规则, 针对语句中词语间的依存关系进行推
理, 得到单个 语句中词语之间的语义关系;
步骤S4: 将单个语句中的语义关系导入图数据库, 将ISO标准的本体模型导入图数据
库, 建立各个句子中词语与本体模型中词语的链接, 推理多个 语句之间的关联关系。
2.根据权利要求1所述的ISO 19650标准文本的多语句关联分析方法, 其特征在于, 所
述步骤S1包括:
步骤S1.1: 获取中文版ISO 19650标准系列的文本文件;
步骤S1.2: 按每 个标准条目抽取语句, 并进行语句分词;
步骤S1.3: 对分词得到的词语进行 换词, 用上位词替换专业 术语。
3.根据权利要求2所述的ISO 19650标准文本的多语句关联分析方法, 其特征在于, 所
述文本文件为docx文件, 使用开源ZLib库将docx文件解压到一组XML文件中, 然后从这些解
压文件中按照ISO 19650标准系列的条目编码规律分析XML文件, 从中提取标准的条目内
容, 删除所有字体和段落 排版, 最后生成一个包 含语句列表的纯文本文件。
4.根据权利要求1所述的ISO 19650标准文本的多语句关联分析方法, 其特征在于, 所
述步骤S2包括: 通过依存关系解析器对语句进行句法树分析, 为语句中的每个词语都标记
一个词性, 找出语句中的中心词, 确定与中心词关联的非中心词, 将非 中心词再作为中心词
开始下一轮的相关非中心词的查找, 最后获得一个多层次的依存句法树。
5.根据权利要求1所述的ISO 19650标准文本的多语句关联分析方法, 其特征在于, 所
述步骤S3包括: 语义关系推理, 设计依存关系到语义关系的映射规则, 根据该映射规则将所
述依存句法树 转化为二元的语义关系。
6.一种ISO 19650标准文本的多语句关联分析系统, 其特 征在于, 包括:
模块M1: 对ISO 19650标准系列中的语句进行分词和换词处理, 获得经过预处理的语
句;
模块M2: 对经 过预处理的语句进行依存句法分析, 获取语句中词语之间的依存关系;
模块M3: 根据依存关系到语义关系的转换规则, 针对语句中词语间的依存关系进行推
理, 得到单个 语句中词语之间的语义关系;
模块M4: 将单个语句中的语义关系导入图数据库, 将ISO标准的本体模型导入图数据
库, 建立各个句子中词语与本体模型中词语的链接, 推理多个 语句之间的关联关系。
7.根据权利要求6所述的ISO 19650标准文本的多语句关联分析系统, 其特征在于, 所
述模块M1包括:
模块M1.1: 获取中文版ISO 19650标准系列的文本文件;
模块M1.2: 按每 个标准条目抽取语句, 并进行语句分词;
模块M1.3: 对分词得到的词语进行 换词, 用上位词替换专业 术语。
8.根据权利要求7所述的ISO 19650标准文本的多语句关联分析系统, 其特征在于, 所
述文本文件为docx文件, 使用开源ZLib库将docx文件解压到一组XML文件中, 然后从这些解权 利 要 求 书 1/2 页
2
CN 114742068 A
2压文件中按照ISO 19650标准系列的条目编码规律分析XML文件, 从中提取标准的条目内
容, 删除所有字体和段落 排版, 最后生成一个包 含语句列表的纯文本文件。
9.根据权利要求6所述的ISO 19650标准文本的多语句关联分析系统, 其特征在于, 所
述模块M2包括: 通过依存关系解析器对语句进行句法树分析, 为语句中的每个词语都标记
一个词性, 找出语句中的中心词, 确定与中心词关联的非中心词, 将非 中心词再作为中心词
开始下一轮的相关非中心词的查找, 最后获得一个多层次的依存句法树。
10.根据权利 要求6所述的IS O 19650标准文本的多语句关联分析系统, 其特征在于, 所
述模块M3包括: 语义关系推理, 设计依存关系到语义关系的映射规则, 根据该映射规则将所
述依存句法树 转化为二元的语义关系。权 利 要 求 书 2/2 页
3
CN 114742068 A
3
专利 ISO 19650标准文本的多语句关联分析方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:06上传分享