全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210918737.6 (22)申请日 2022.08.02 (65)同一申请的已公布的文献号 申请公布号 CN 114970554 A (43)申请公布日 2022.08.30 (73)专利权人 国网浙江省电力有限公司宁波供 电公司 地址 315000 浙江省宁波市海曙区丽园北 路1408号 (72)发明人 黄晓明 赵欣 董元龙 林明晖  李杨 丁靖 高晓辉 方昕  余乘龙 陈凌 岳衡  (74)专利代理 机构 宁波市鄞州盛飞专利代理事 务所(特殊普通 合伙) 33243 专利代理师 龙洋 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/205(2020.01) G06F 40/169(2020.01)G06N 3/04(2006.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06V 30/10(2022.01) G06V 30/19(2022.01) (56)对比文件 CN 113903048 A,202 2.01.07 CN 113673228 A,2021.1 1.19 CN 110555212 A,2019.12.10 US 11151317 B1,2021.10.19 CN 109255113 A,2019.01.2 2 CN 113553834 A,2021.10.26 CN 114580382 A,202 2.06.03 CN 111241824 A,2020.0 6.05 CN 113420546 A,2021.09.21 杨辉等.基 于自然语言处 理的机关公文智能 化纠错系统架构研究. 《第十五届全国信号和智 能信息处 理与应用学术会议 论文集》 .2021,(续) 审查员 田凌桐 (54)发明名称 一种基于自然语言处 理的文档校验方法 (57)摘要 本发明公开了一种基于自然语言处理的文 档校验方法, 涉及数据处理技术领域, 主要包括 步骤: 通过查找预设字向量表的方式对各文字段 信息进行拆分以获得位置信息、 初步预测下的字 向量信息以及当前文字段信息整体的文本信息; 组合前后文本信息, 并通过比较前后文本信息中 字向量信息以及相应位置信息的拟合度获取前 后文本信息的相似度信息; 获取修正后目标文档 的语句信息并语义标注; 通过识别语义标注进行 目标文档内容获取; 通过自然语言处理对文档内 容进行分析, 并根据分析结果提取出其中含有预 设违规语料的文档内容并标注。 本发 明通过上下 文对目标文本信息进行双向预测, 从而可以获得 更为准确语句信息, 提高了自然语 言处理的校验准确率。 [转续页] 权利要求书2页 说明书6页 附图2页 CN 114970554 B 2022.10.21 CN 114970554 B (56)对比文件 皮谨煜.英文语义机 器翻译中的模糊语义选 取技术. 《现代电子技 术》 .2017,(第2 2期),50- 52.Ei Phyu Phyu Mo n.et.SymSpel l4Burmese: Symmetric Delete Spel ling Correction Algorithm (SymSpel l) for Burmese Spel ling Checking. 《IEEE》 .2022,2/2 页 2[接上页] CN 114970554 B1.一种基于自然语言处 理的文档校验方法, 其特 征在于, 包括 步骤: S1: 获取目标文档的图像扫描信息并提取 出其中多个文字段信息; S2: 通过查找预设字向量表 的方式对各文字段信息进行拆分以获得位置信息、 初步预 测下的字向量信息以及当前文字段信息整体的文本信息; S3: 获取当前文本信息与该文本信息之前或之后、 相邻或非相邻的任意文本信息拼接 下的前后文本信息, 并通过比较前后文本信息中字向量信息以及相应位置信息的拟合度获 取前后文本信息的相似度信息; S4: 根据相似度信息对当前文字段信息中初步预测失误的文字进行修正, 并获取修正 后目标文档的语句信息; S5: 通过对语句信息进行语义标注, 并通过识别语义标注进行目标文档内容获取; S6: 通过自然语言处理对文档内容进行分析, 并根据分析结果提取出其中含有预设违 规语料的文档内容并标注。 2.如权利要求1所述的一种基于自然语言处理的文档校验方法, 其特征在于, 所述S1步 骤具体包括 步骤: S11: 获取目标文档的图像扫描信息, 并对图像扫描信息进行信息分类划分; S12: 根据分类划分出的文本图块进行文字段信息识别。 3.如权利要求2所述的一种基于自然语言处理 的文档校验方法, 其特征在于, 所述图像 扫描信息的信息分类划分通过卷积循环神经网络实现, 所述卷积 循环神经网络中包括卷积 层、 全连接层和池化层, 卷积层均采用预设大小的卷积核, 其中: 通过卷积层对图像扫描信息进行逐层特征提取, 并通过全连接层进行各层特征融合, 根据融合后的特 征, 通过池化层获得信息分类划分结果。 4.如权利要求1所述的一种基于自然语言处理的文档校验方法, 其特征在于, 所述S3步 骤中, 当前文本信息任意组合下 的前后文本信息, 指拼接当前文本信息以及与当前文本信 息相邻或非相邻的前后任意文本信息, 并获得拼接后组成的前后文本信息 。 5.如权利要求1所述的一种基于自然语言处理的文档校验方法, 其特征在于, 所述S3步 骤中, 通过将字 向量信息根据相应位置信息映射到预设维度 空间中, 根据前后文本信息在 预设维度区间中字向量信息的拟合度获得相似度信息 。 6.如权利要求1所述的一种基于自然语言处理的文档校验方法, 其特征在于, 所述S5步 骤中, 对语句信息进行语义标注具体步骤为: 通过分析语句信息与目标语料库中数据的语义相似度进行语义标注。 7.如权利要求6所述的一种基于自然语言处理 的文档校验方法, 其特征在于, 所述语义 相似度是通过长短期神经网络 分别获取语句 信息与目标语料库中数据的特征向量, 并根据 特征向量之间的相关度计算获取, 具体 计算公式为: 式中r为获取语句信息与目标语料库中数据的相关度, n为特征向量中样本的数量, i为 常数, X为语句信息的特征向量, Xi为第i个语句信息的特征向量, Y为目标语料库中数据的权 利 要 求 书 1/2 页 2 CN 114970554 B 3

PDF文档 专利 一种基于自然语言处理的文档校验方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自然语言处理的文档校验方法 第 1 页 专利 一种基于自然语言处理的文档校验方法 第 2 页 专利 一种基于自然语言处理的文档校验方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。