全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210654879.6 (22)申请日 2022.06.10 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 来克胜 万杰林  (74)专利代理 机构 北京市通商律师事务所 11951 专利代理师 姜莹丽 (51)Int.Cl. G06F 16/958(2019.01) G06F 16/901(2019.01) G06F 9/451(2018.01) (54)发明名称 页面特征获取方法、 装置、 电子设备及可读 存储介质 (57)摘要 本公开提供一种页面特征获取方法、 装置、 电子设备及可读存储介质, 涉及互联网技术, 尤 其涉及页面渲染、 页面特征获取领域。 具体实现 方案包括: 获取目标页面的页面数据, 根据页面 数据解析得到页面中多个层级的数据以及多个 层级之间的父子关系。 根据每个层级的数据渲染 生成对应的布局对象, 布局对象包括对应层级的 父子关系。 根据布局对象的属性特征、 布局对象 的父子关系, 获取目标页面的页面特征。 根据布 局对象的属性特征、 布局对象的父子关系, 获取 得到的目标页面的页面特征包括了页面中的文 本特征、 非文本特征、 父子关系等, 保留了页面的 结构, 特征维度更多, 能够更加准确的表示目标 页面。 权利要求书3页 说明书9页 附图4页 CN 114996614 A 2022.09.02 CN 114996614 A 1.一种页面特 征获取方法, 其特 征在于, 所述方法包括: 获取目标页面的页面数据, 根据所述页面数据解析得到页面中多个层级的数据以及所 述多个层级之间的父子关系; 根据每个所述层级的数据渲染生成对应的布局对象, 所述布局对象包括对应层级的父 子关系; 根据所述布局对象的属性特征、 所述布局对象的父子关系, 获取所述目标页面的页面 特征。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述布局对象的属性特征、 所述 布局对象的父子关系, 获取 所述目标页面的页面特 征, 包括: 获取所述目标页面中每 个所述布局对象的属性特 征; 根据所述布局对象的属性特征和所述布局对象的父子关系生成所述布局对象的统计 节点, 所述统计节点包括对应布局对象的父子关系; 根据每个所述统计节点以及所述统计节点的父子关系, 生成所述目标页面的页面特 征。 3.根据权利要求1所述的方法, 其特征在于, 所述根据所述布局对象的属性特征、 所述 布局对象的父子关系, 获取 所述目标页面的页面特 征, 包括: 确定所述目标页面中的第一区域, 所述第一区域包括至少一个布局对象, 所述布局对 象的父子关系包括 一个或多个子布局对象; 获取所述布局对象以及每 个所述子布局对象的属性特 征; 根据所述布局对象的属性特征、 每个所述子布局对象的属性特征和所述布局对象的父 子关系, 生成所述布局对 象和每个所述子布局对 象的统计节点, 所述统计节点包括对应布 局对象的父子关系; 根据每个所述统计节点以及所述统计节点的父子关系, 生成所述目标页面的页面特 征。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述布局对象的属性特征、 所述 布局对象的父子关系, 获取 所述目标页面的页面特 征, 包括: 确定所述目标页面中的第二区域, 所述第二区域包括在屏幕中显示的区域; 获取所述第 二区域中的所述布局对象的属性特征, 根据 所述布局对象的属性特征和所 述布局对 象的父子关系, 根据所述布局对 象的属性特征和所述布局对 象的父子关系, 生成 第二区域中每 个所述布局对象的统计节点, 所述统计节点包括对应布局对象的父子关系; 根据每个所述统计节点以及所述统计节点的父子关系, 生成所述目标页面的页面特 征。 5.根据权利要求2 ‑4任一项所述的方法, 其特征在于, 在所述根据 所述布局对象的属性 特征、 所述布局对象的父子关系, 获取的得到页面特 征之后, 所述方法还 包括: 根据所述页面特 征对所述目标页面进行检测, 获取 所述目标页面的识别结果。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述页面特征对所述目标页面进 行检测, 获取 所述目标页面的识别结果, 包括: 对所述页面特 征中的每 个统计节点进行 预处理, 生成预处 理后的页面特 征; 将所述预处理后的页面特征输入预先训练 的识别模型, 得到所述目标页面的内容或行权 利 要 求 书 1/3 页 2 CN 114996614 A 2为。 7.一种页面特 征获取装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取目标页面的页面数据, 根据所述页面数据解析得到页面中多个层 级的数据以及所述多个层级之间的父子关系; 生成模块, 用于根据每个所述层级的数据渲染生成对应的布局对象, 所述布局对象包 括对应层级的父子关系; 所述获取模块, 还用于根据 所述布局对象的属性特征、 所述布局对象的父子关系, 获取 所述目标页面的页面特 征。 8.根据权利要求7所述的装置, 其特征在于, 所述获取模块具体用于获取所述目标页面 中每个所述布局对象的属性特 征; 根据所述布局对象的属性特征和所述布局对象的父子关系生成所述布局对象的统计 节点, 所述统计节点包括对应布局对象的父子关系; 根据每个所述统计节点以及所述统计节点的父子关系, 生成所述目标页面的页面特 征。 9.根据权利要求7所述的装置, 其特征在于, 所述获取模块具体用于确定所述目标页面 中的第一区域, 所述第一区域包括至少一个布局对 象, 所述布局对 象的父子关系包括一个 或多个子布局对象; 获取所述布局对象以及每 个所述子布局对象的属性特 征; 根据所述布局对象的属性特征、 每个所述子布局对象的属性特征和所述布局对象的父 子关系, 生成所述布局对 象和每个所述子布局对 象的统计节点, 所述统计节点包括对应布 局对象的父子关系; 根据每个所述统计节点以及所述统计节点的父子关系, 生成所述目标页面的页面特 征。 10.根据权利要求7所述的装置, 其特征在于, 所述获取模块具体用于确定所述目标页 面中的第二区域, 所述第二区域包括在屏幕中显示的区域; 获取所述第 二区域中的所述布局对象的属性特征, 根据 所述布局对象的属性特征和所 述布局对 象的父子关系, 根据所述布局对 象的属性特征和所述布局对 象的父子关系, 生成 第二区域中每 个所述布局对象的统计节点, 所述统计节点包括对应布局对象的父子关系; 根据每个所述统计节点以及所述统计节点的父子关系, 生成所述目标页面的页面特 征。 11.根据权利要求8 ‑10任一项所述的装置, 其特征在于, 所述装置还包括识别模块, 用 于根据所述页面特 征对所述目标页面进行检测, 获取 所述目标页面的识别结果。 12.根据权利要求11所述的装置, 其特征在于, 所述识别模块具体用于对所述页面特征 中的每个统计节点进行 预处理, 生成预处 理后的页面特 征; 将所述预处理后的页面特征输入预先训练 的识别模型, 得到所述目标页面的内容或行 为。 13.一种电子设备, 其特征在于, 包括: 至少一个处理器; 以及与 所述至少一个处理器通 信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少权 利 要 求 书 2/3 页 3 CN 114996614 A 3

.PDF文档 专利 页面特征获取方法、装置、电子设备及可读存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 页面特征获取方法、装置、电子设备及可读存储介质 第 1 页 专利 页面特征获取方法、装置、电子设备及可读存储介质 第 2 页 专利 页面特征获取方法、装置、电子设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:53:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。