全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211244772.0 (22)申请日 2022.10.12 (71)申请人 南通中泓网络科技有限公司 地址 226000 江苏省南 通市高新区外通掘 路1号 (72)发明人 胡夕国 胡玥  (74)专利代理 机构 武汉华强专利代理事务所 (普通合伙) 42237 专利代理师 康晨 (51)Int.Cl. G06F 16/178(2019.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于机器学习模型的版式数据流文件 转换的评估方法 (57)摘要 本发明涉及数据 识别领域, 具体涉及一种基 于机器学习模型的版式数据流文件转换的评估 方法, 包括以下步骤: 步骤一, 获取训练样本集; 步骤二, 利用训练样本集对构建的神经网络模型 进行训练, 得到训练好的神经网络模型; 步骤三, 利用训练好的神经网络模型, 对待测的版式数据 流文件的转换质量进行评估。 即本发 明的方案能 够通过获取训练样本集, 对神经网络模型进行训 练, 能够实现版式数据流文件的转换质量的快 速、 高效评估。 权利要求书2页 说明书8页 附图1页 CN 115328871 A 2022.11.11 CN 115328871 A 1.一种基于机器学习模型的版式数据流文件转换的评估方法, 其特征在于, 包括以下 步骤: 步骤一, 获取训练样本集; 步骤二, 利用训练样本集对构建的神经网络模型进行训练, 得到训练好的神经网络模 型; 步骤三, 利用训练好的神经网络模型, 对待测的版式数据流文件的转换质量进行评估; 所述训练样本集的获取 过程为: 分别提取版式数据流文件在转换前和转换后的感兴趣区域, 得到若干感兴趣区域对, 每个感兴趣区域对均包括转换前感兴趣区域和转换后感兴趣区域; 计算任意一个感兴趣区 域对内的转换误差绝对值, 进 而得到版式数据流文件的转换误差值之和; 对每个感兴趣区域对内的转换前感兴趣区域和转换后感兴趣区域分别进行凸包检测, 得到对应的两个凸包; 将每个凸包进行傅里叶变换得到频域信息, 得到对应的两个频域信 号, 并将两个频域信号分别作为该感兴趣区域对内的转换前形态向量和 转换后形态向量; 根据所述的转换前形态向量和转换后形态向量, 得到转换误差分布特征, 得到所有感兴趣 区域对的转换误差分布特 征序列, 基于所述 转换误差分布特 征序列, 得到转换异样度; 基于各版式数据流文件的转换异样度以及转换误差值之和, 对不同的版式数据流文件 进行分类, 得到不同的类别簇; 对各类别簇进行统计分析, 得到类型描述子; 计算类型描述 子的隶属度, 当隶属度大于等于阈值时, 则版式数据流文件转换正常, 将其作为训练样本, 直至得到训练样本集。 2.根据权利要求1所述的基于机器学习模型的版式数据流文件转换的评估方法, 其特 征在于, 神经网络模型 的输入为各版式数据流文件的转换异样度以及转换误差值之和, 输 出为隶属度。 3.根据权利要求1所述的基于机器学习模型的版式数据流文件转换的评估方法, 其特 征在于, 所述转换误差分布特征为: 计算各感兴趣区域对内的转换前形态向量和转换后形 态向量的余弦相似度。 4.根据权利要求1所述的基于机器学习模型的版式数据流文件转换的评估方法, 其特 征在于, 所述 转换异样度的获取 过程为: 分别计算当前版式数据流文件转换记录的转换误差分布特征序列与其他版式数据流 文件转换记录的转换误差分布特征序列 的相似度, 将相似度按照从大到小的顺序进行排 序, 选取第K个相似的版式数据流文件的转换误差分布特征序列以及相似度最大对应的版 式数据流文件的转换误差分布特 征序列作为最相似的分布特 征序列; 根据当前文件转换记录的转换误差分布特征序列、 最相似的分布特征序列以及第K个 文件的分布特 征序列, 计算得到转换异样度: 其中, 为转换误差分布特征序列, 为最相似的分布特征序列, 为 第K个相似的分布特 征序列, 为 损失函数。 5.根据权利要求1所述的基于机器学习模型的版式数据流文件转换的评估方法, 其特权 利 要 求 书 1/2 页 2 CN 115328871 A 2征在于, 所述转换误差值为计算任意一个感兴趣区域对内的转换前感兴趣区域的长宽比和 转换后感兴趣区域的长宽比的差值的绝对值, 其中长宽比 , 其中w为宽度, L为长 度, min ( ) 为求最小值, max为 求最大值。 6.根据权利要求1所述的基于机器学习模型的版式数据流文件转换的评估方法, 其特 征在于, 对不同的版式数据流文件进行分类, 得到不同的类别簇的具体过程 为: 根据各版式数据流文件的转换异样度以及转换误差值之和, 计算任意两版式数据流文 件的差异 距离: 其中, 为版式数据流文件X的转换误差值之和, 为版式数据流文件Y的转换误差值 之和, 为版式数据流文件X的转换异样度, 为版式数据流文件Y的转换异样度; 根据所述差异 距离对各 版式数据流文件进行聚类, 得到不同的类别簇 。 7.根据权利要求1所述的基于机器学习模型的版式数据流文件转换的评估方法, 其特 征在于, 所述隶属度为: 其中, 为样本M的邻域簇集合的总个数, 为样本M与邻域簇中的 样本S的可达距离 。权 利 要 求 书 2/2 页 3 CN 115328871 A 3

.PDF文档 专利 一种基于机器学习模型的版式数据流文件转换的评估方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习模型的版式数据流文件转换的评估方法 第 1 页 专利 一种基于机器学习模型的版式数据流文件转换的评估方法 第 2 页 专利 一种基于机器学习模型的版式数据流文件转换的评估方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。