全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210068521.5 (22)申请日 2022.01.20 (71)申请人 北京字节跳动网络技 术有限公司 地址 100041 北京市石景山区实兴大街3 0 号院3号楼 2层B-0035房间 (72)发明人 蔡悦 黄灿  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 魏云鹿 (51)Int.Cl. G06V 30/18(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 图像中文本的处理方法、 装置、 可读介质和 电子设备 (57)摘要 本公开涉及一种图像中文本的处理方法、 装 置、 可读介质和电子设备, 涉及图像处理技术领 域, 该方法包括: 获取待处理图像和指定语种, 对 待处理图像进行文本检测, 从待处理图像中提取 出包含原始文本的文本区域子图, 通过编码器对 文本区域子图进行编码, 以得到文本区域子图对 应的特征图, 通过解码器按照指定语种对特征图 进行解码, 以得到原始文本对应的目标文本, 目 标文本为指定语种, 编码器和解码器根据多个样 本图像, 以及每个样本图像对应多种语种的样本 文本, 联合训练得到的。 本公开通过编码器得到 文本区域子图对应的特征图, 再通过解码器将特 征图解码为指定语种的目标文本, 结构简单, 能 够快速、 准确地得到目标文本 。 权利要求书2页 说明书11页 附图5页 CN 114495112 A 2022.05.13 CN 114495112 A 1.一种图像中文本的处 理方法, 其特 征在于, 所述方法包括: 获取待处 理图像和指定语种; 对所述待处理图像进行文本检测, 从所述待处理图像中提取出包含原始文本的文本区 域子图; 通过编码器对所述文本区域子图进行编码, 以得到所述文本区域子图对应的特 征图; 通过解码器按照所述指定语种 对所述特征图进行解码, 以得到所述原始文本对应的目 标文本, 所述目标文本为所述指 定语种, 所述编码器和所述解码 器根据多个样本图像, 以及 每个所述样本图像对应多种语种的样本文本, 联合训练得到的。 2.根据权利要求1所述的方法, 其特征在于, 所述通过解码器按照所述指定语种 对所述 特征图进行解码, 以得到所述原 始文本对应的目标文本, 包括: 根据所述指定语种确定对应的语种标识; 将所述语种标识作为循环起始符, 并将所述特征图和所述循环起始符输入所述解码 器, 以得到所述 解码器输出的所述目标文本 。 3.根据权利要求1所述的方法, 其特征在于, 所述通过解码器按照所述指定语种 对所述 特征图进行解码, 以得到所述原 始文本对应的目标文本, 包括: 根据所述指定语种确定对应的语种标识; 将所述特征图、 所述语种标识以及预设的循环起始符输入所述解码器, 以得到所述解 码器输出的所述目标文本 。 4.根据权利要求1所述的方法, 其特征在于, 所述通过编码器对所述文本区域子图进行 编码, 以得到所述文本区域子图对应的特 征图, 包括: 提取所述文本区域子图的图像特 征; 将所述文本区域子图的图像特 征输入所述编码器, 以得到所述特 征图。 5.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述编码器和所述解码器是通 过以下方式联合训练得到的: 获取样本输入集和样本输出集, 所述样本输入集包括多个样本输入, 所述样本输入包 括一个所述样本图像和一种语种, 所述样本输出集中包括与每个所述样本输入对应的样本 输出, 每个所述样本 输出包括对应的所述样本图像对应该种语种的样本文本; 将每个所述样本输入中包括的样本图像作为所述编码器的输入, 以得到所述编码器输 出的样本特 征图; 将所述样本特征图与该样本输入中包括的该种语种对应的语种标识作为所述解码器 的输入, 根据所述解码器的输出与该样本输入对应的样本输出, 联合训练所述编码器和所 述解码器。 6.根据权利要求5所述的方法, 其特 征在于, 所述获取样本 输入集和样本 输出集, 包括: 获取多个所述样本图像, 以及每 个所述样本图像中包括的原 始语种的原 始样本文本; 针对每个所述样本 图像, 通过翻译器将该样本 图像对应的所述原始样本文本, 翻译为 多种语种的样本文本, 以得到所述样本 输入集和所述样本 输出集。 7.一种图像中文本的处 理装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待处 理图像和指定语种; 检测模块, 用于对所述待处理图像进行文本检测, 从所述待处理图像中提取出包含原权 利 要 求 书 1/2 页 2 CN 114495112 A 2始文本的文本区域子图; 编码模块, 用于通过编码器对所述文本区域子 图进行编码, 以得到所述文本区域子 图 对应的特 征图; 解码模块, 用于通过解码器按照所述指定语种对所述特征图进行解码, 以得到原始文 本对应的目标文本, 所述 目标文本为所述指定语种, 所述编码器和所述解码器根据多个样 本图像, 以及每 个所述样本图像对应多种语种的样本文本, 联合训练得到的。 8.根据权利要求7 所述的装置, 其特 征在于, 所述 解码模块用于: 根据所述指定语种确定对应的语种标识; 将所述语种标识作为循环起始符, 并将所述特征图和所述循环起始符输入所述解码 器, 以得到所述 解码器输出的所述目标文本 。 9.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置执行 时实现权利要求1 ‑6中任一项所述方法的步骤。 10.一种电子设备, 其特 征在于, 包括: 存储装置, 其上存 储有计算机程序; 处理装置, 用于执行所述存储装置 中的所述计算机程序, 以实现权利要求1 ‑6中任一项 所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114495112 A 3

.PDF文档 专利 图像中文本的处理方法、装置、可读介质和电子设备

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图像中文本的处理方法、装置、可读介质和电子设备 第 1 页 专利 图像中文本的处理方法、装置、可读介质和电子设备 第 2 页 专利 图像中文本的处理方法、装置、可读介质和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:16:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。