全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210277849.8 (22)申请日 2022.03.21 (71)申请人 广东工业大 学 地址 511400 广东省广州市番禺区大 学城 外环西路10 0号 (72)发明人 黄尚樱  (74)专利代理 机构 深圳市创富知识产权代理有 限公司 4 4367 专利代理师 高冰 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01)G06V 10/74(2022.01) G06V 10/82(2022.01) G06T 3/40(2006.01) G06N 5/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度神经网络视觉识别的口语学 习方法及系统 (57)摘要 本发明公开了一种基于深度神经网络视觉 识别的口语学习方法及系统, 该方法包括: 构建 口部发音图像数据集; 对口部发音图像数据集进 行变换预处理, 得到预处理后的数据集; 根据预 处理后的数据集提取口型和舌型的变化信息并 整合为连贯数据, 得到连贯序列基于YOL O模型构 建口语学习评分模型并训练, 得到训练完成的口 语学习评分模 型; 采集用户的发音视频并基于训 练完成的口语学习评分模型进行评分, 得到评分 结果。 该系统包括: 数据集构建模块、 预处理模 块、 整合模块、 训练模块和评分模块。 本发明能够 解决汉语口语学习用户汉语发音不规范的问题。 本发明作为一种基于深度神经网络视觉识别的 口语学习方法及系统, 可广泛应用于计算机信息 处理领域。 权利要求书2页 说明书6页 附图2页 CN 114783049 A 2022.07.22 CN 114783049 A 1.一种基于深度神经网络 视觉识别的 口语学习方法, 其特 征在于, 包括以下步骤: 基于口语标准教学视频构建口部发音图像数据集; 对口部发音图像数据集进行变换 预处理, 得到预处 理后的数据集; 根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据, 得到连贯序 列; 基于YOLO模型构建口语学习评分模型并训练, 得到训练完成的 口语学习评分模型; 采集用户的发音视频并基于训练完成的 口语学习评分模型进行评分, 得到 评分结果。 2.根据权利要求1所述一种基于深度神经网络视觉识别的口语学习方法, 其特征在于, 所述基于口语标准教学视频构建口部发音图像数据集 这一步骤, 其具体包括: 获取口语标准教学视频; 对口语标准教学视频进行分帧处理, 每经过预设时间输出一帧图像, 得到不同时刻的 口部发音图像; 对不同时刻的 口部发音图像设置分类标签并构建口部发音图像数据集。 3.根据权利要求2所述一种基于深度神经网络视觉识别的口语学习方法, 其特征在于, 所述对口部发音图像数据集进行变换预处理, 得到预处理后的数据集这一步骤, 其具体包 括: 基于SRCN N算法对口部发音图像数据集的图像进行超分辨 率重建处 理; 按照预设的规范尺寸 修正口部发音图像数据集的图像尺寸; 将口部发音图像数据集的图像进行RGB均值 修正处理; 基于图像的点 运算修正像素灰度; 得到预处 理后的数据集。 4.根据权利要求3所述一种基于深度神经网络视觉识别的口语学习方法, 其特征在于, 所述根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据, 得到连贯序列 这一步骤, 其具体包括: 对预处理后的数据集中的图像进行特征点识别, 并记录对应的时间戳, 得到口型信息 和舌型信息; 根据口型信息和舌型信息获取对应的空间三维坐标信息, 得到三维坐标; 基于时间戳, 对三维坐标、 数据集的签名信息进行整合 排序, 得到连贯序列。 5.根据权利要求4所述一种基于深度神经网络视觉识别的口语学习方法, 其特征在于, 所述基于Y OLO模型构建口语学习评 分模型并训练, 得到训练完成的口语学习评 分模型这一 步骤, 其具体包括: 将分类标签存放在连贯序列对应的对象中; 基于YOLO模型将物体类别和位置统一为一个回归问题, 设置前向传播函数和损失函 数, 得到口语学习评分模型; 基于连贯序列和分类标签对YOLO模型进行 预测, 得到预测结果; 将预测结果输入到随机森林当中, 并由每棵决策树进行分类预测, 得到投票得分结果, 结合分类标签验证, 得到训练完成的 口语学习评分模型。 6.根据权利要求5所述一种基于深度神经网络视觉识别的口语学习方法, 其特征在于, 所述采集用户的发音视频并基于训练完成的口语学习评 分模型进 行评分, 得到评分结果这权 利 要 求 书 1/2 页 2 CN 114783049 A 2一步骤, 其具体包括: 基于摄像头和录音器录制用户的发音视频, 得到用户发音视频; 基于特征点提取用户发音视频中每帧图像的 口型特征和舌型 特征; 将口型特征和舌型 特征进行融合, 得到口舌融合特 征; 将口舌融合特征按照用户发音视频对应的时间戳进行整合排序, 得到排序后的融合特 征; 将排序后的融合特征输入训练完成的口语学习评分模型, 对排序后的融合特征与 标准 发音进行相似度匹配, 输出评分, 得到 评分结果。 7.根据权利要求6所述一种基于深度神经网络视觉识别的口语学习方法, 其特征在于, 所述相似度匹配的计算公式如下: 上式中, FinFeaturestand表示标准发音的口舌融合特征, FinFeaturej表示用户的口舌 融合特征, k表示 惩罚因子 。 8.一种基于深度神经网络 视觉识别的 口语学习 系统, 其特 征在于, 包括: 数据集构建模块, 基于口语标准教学视频构建口部发音图像数据集; 预处理模块, 用于对口部发音图像数据集进行变换 预处理, 得到预处 理后的数据集; 整合模块, 用于根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数 据, 得到连贯序列; 训练模块, 基于YOLO模型构建口语学习评分模型并训练, 得到训练完成的口语学习评 分模型; 评分模块, 用于采集用户的发音视频并基于训练完成的口语学习评分模型进行评分, 得到评分结果。权 利 要 求 书 2/2 页 3 CN 114783049 A 3

.PDF文档 专利 一种基于深度神经网络视觉识别的口语学习方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度神经网络视觉识别的口语学习方法及系统 第 1 页 专利 一种基于深度神经网络视觉识别的口语学习方法及系统 第 2 页 专利 一种基于深度神经网络视觉识别的口语学习方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:17:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。