全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211339392.5 (22)申请日 2022.10.29 (71)申请人 深圳迅策 科技有限公司 地址 518000 广东省深圳市南 山区粤海街 道高新园粤兴一道9号香港科技大学 产学研大楼1 18A室 (72)发明人 杨阳 钱锋 陈鹏晖  (74)专利代理 机构 北京云嘉 湃富知识产权代理 有限公司 1 1678 专利代理师 喻强 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/216(2020.01) G06F 16/31(2019.01) G06N 3/04(2006.01) (54)发明名称 一种非结构化数据提取方法、 装置、 设备及 存储介质 (57)摘要 本发明涉及数据提取技术, 揭露了一种非结 构化数据提取方法、 装置、 设备及存储介质, 包 括: 对初始文本进行预处理, 得到目标文本, 对目 标文本进行向量转化, 得到向量文本; 对向量文 本进行特征提取, 得到文本特征, 识别向量文本 的向量维度, 构建文本特征的特征矩阵; 对初始 文本进行语义识别, 得到文本语义; 对向量文本 进行双向循环编码, 得到第一编码向量和第二编 码向量, 并计算第一编码向量和第二编码向量之 间的关联度, 计算第一编码向量和第二编码向量 对应的级联编码向量; 通过训练后的数据提取模 型中的结构化识别层, 对文本语义和级联编码向 量进行识别, 确定初始文本中的非结构化文本和 结构化文本。 本发明通过提高非结构化数据提取 效率。 权利要求书3页 说明书12页 附图2页 CN 115409041 A 2022.11.29 CN 115409041 A 1.一种非结构化数据提取 方法, 其特 征在于, 所述方法包括: 获取待提取的初始文本, 对所述初始文本进行预处理, 得到目标文本, 对所述目标文本 进行向量 转化, 得到向量文本; 利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取, 得到文本特 征, 识别所述向量文本的向量维度, 根据所述向量维度, 构建所述文本特 征的特征矩阵; 根据所述特征矩阵, 利用所述训练后的数据提取模型中的语义识别层对所述初始文本 进行语义识别, 得到文本语义; 利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码, 得到第一编 码向量和 第二编码向量, 并计算所述第一编 码向量和所述第二编码向量之 间的 关联度, 根据所述关联度, 计算所述第一编码向量和所述第二编码向量对应的级联编码向 量; 通过所述训练后的数据提取模型中的结构化识别层, 对所述文本语义和所述级联编码 向量进行识别, 确定所述初始文本中的非结构化文本和结构化文本 。 2.如权利要求1所述的非结构化数据提取方法, 其特征在于, 所述对所述初始文本进行 预处理, 得到目标文本, 包括: 对所述初始文本进行 标准化处理, 得到标准文本; 对所述标准文本进行去重处 理, 得到去重文本; 根据预设的停用词对照表对所述去重文本进行停用词过 滤, 得到所述目标文本 。 3.如权利要求1所述的非结构化数据提取方法, 其特征在于, 所述根据所述向量维度, 构建所述文本特 征的特征矩阵, 包括: 利用下述公式构建所述文本特 征的特征矩阵: 其中,  表示所述文本特征的特征矩阵, i表示所述文本特征中的特征数量,   表示 所述文本特征对应的向量维度,   表示所述文本特征的自变量,   表示所述文本特征对 应的矩阵谱径。 4.如权利要求1所述的非结构化数据提取方法, 其特征在于, 所述根据所述特征矩阵, 利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别, 得到文本语 义, 包括: 通过所述语义识别层执 行如下操作: 计算所述特 征矩阵中每 个特征之间的特 征距离值; 将所述特 征距离值大于预设值的特 征作为所述初始文本的目标 特征; 对所述目标 特征对应的文本进行语义 解析, 得到目标语义; 计算所述目标语义对所述初始文本的支持度; 根据所述支持度, 对目标语义进行筛 选, 得到所述初始文本的文本语义。 5.如权利要求4所述的非结构化数据提取方法, 其特征在于, 所述计算所述特征矩阵中 每个特征之间的特 征距离值, 包括:权 利 要 求 书 1/3 页 2 CN 115409041 A 2通过下述公式计算所 特征矩阵中每 个特征之间的特 征距离值: 其中, a和b分别为第一特征的标识和第二特征的标识, 所述第一特征和所述第二特征 为所述特征矩阵中的相邻特征; 表示所述第一 特征和所述第二特征 之间的特征距 离值, i表示特征矩阵中的起始特征, 表示所述第一特征的初始坐标值, 表示所述第二 特征的初始坐标值, 表示与终止特征相邻的特征 终止坐标值, 表示终止特征的终止坐 标值。 6.如权利要求4所述的非结构化数据提取方法, 其特征在于, 所述计算所述目标语义对 所述初始文本的支持度, 包括: 通过下述公式计算所述目标语义对所述初始文本的支持度: 其中, 表示目标语义对初始文本的支持度, 表示目标语义中第i个语义的横向 量, 表示初始文本的横向量, 表示目标语义中第i个语义的横向量与初始文本的 横向量的积分映射 值。 7.如权利要求1所述的非结构化数据提取方法, 其特征在于, 所述利用所述训练后的数 据提取模型中的双向循环层 对所述向量文本进行双向循环编码, 得到第一编码向量和 第二 编码向量, 包括: 通过下述公式对所述向量文本进行双向循环编码: 其中, 表示第一编码向量, f表示描 述概率系数, 表示前方转移矩阵, 表示向 前编码时向量文本对应的特征, 表示转移矩阵, 表示向前循环时的文本信 息, 表示第二编码向量, 表示后方转移矩阵, 表示向后编码时向量文本对应的 特征, 表示向后循环时的文本信息 。权 利 要 求 书 2/3 页 3 CN 115409041 A 3

PDF文档 专利 一种非结构化数据提取方法、装置、设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种非结构化数据提取方法、装置、设备及存储介质 第 1 页 专利 一种非结构化数据提取方法、装置、设备及存储介质 第 2 页 专利 一种非结构化数据提取方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。