(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111647739.8
(22)申请日 2021.12.2 9
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦二层
(72)发明人 柴业坤 王硕寰 孙宇
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
代理人 杜月
(51)Int.Cl.
G06F 40/143(2020.01)
G06F 40/146(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
页面信息处理方法、 装置、 电子设备和存储
介质
(57)摘要
本公开公开了一种页面信息处理方法、 装
置、 电子设备和存储介质, 涉及人工智能领域, 尤
其涉及深度学习和自然语言处理领域。 具体实现
方案为: 通过获取目标页面的超文本信息, 对目
标页面的超文本信息进行切词, 以得到多个子
词, 从而根据超文本信息进行页面渲染, 以确定
超文本信息中各子词对应的页面元素, 进而根据
多个子词对应的页面元素在目标页面中的显示
位置, 对目标页面进行特征提取。 基于超文本信
息中各子词对应的页面元素的显示位置, 对超文
本信息对应的目标页面进行特征提取, 从而可以
在提取到的特征中携带有目标页面的结构化信
息和富文本信息, 增强了特征携带的信息量, 以
便执行后续任务时提高任务执 行的准确度。
权利要求书3页 说明书15页 附图7页
CN 114429106 A
2022.05.03
CN 114429106 A
1.一种页面信息处 理方法, 包括:
获取目标页面的超文本信息;
对所述目标页面的超文本信息进行切词, 以得到多个子词;
根据所述超文本信息进行页面渲染, 以确定所述超文本信息中各子词对应的页面元
素;
根据多个所述子词对应的页面元素在所述目标页面中的显示位置, 对所述目标页面进
行特征提取。
2.根据权利要求1所述的方法, 其中, 所述根据多个所述子词对应的页面元素在所述目
标页面中的显示 位置, 对所述目标页面进行 特征提取, 包括:
根据多个所述子词对应的页面元素在所述目标页面中的显示位置, 确定多个所述子词
的第一编码;
根据多个所述子词的词向量、 对应子词在所述超文本信息中的文本顺序, 以及对应子
词所属的语句中的至少一个或多个组合, 确定多个所述子词的第二编码;
将多个所述子词的第一编码, 与对应子词的第二编码融合, 以得到 输入编码;
将所述输入编码输入预训练模型进行 特征提取, 以得到所述目标页面的特 征。
3.根据权利要求2所述的方法, 其中, 所述根据多个所述子词对应的页面元素在所述目
标页面中的显示 位置, 确定多个所述子词的第一编码, 包括:
针对任意的一个子词, 根据对应页面元素中第一角点距离所述目标页面边缘的距离,
以及所述页面元素中与所述第一角点对角的第二角点距离所述目标页面边缘的距离, 确定
所述第一编码。
4.根据权利要求1-3任一项所述的方法, 其中, 所述对所述目标页面的超文本信息进
行切词, 以得到多个子词, 包括:
对所述目标页面的超文本信 息, 采用子词切分器对所述超文本信 息中的文本和超文本
标签进行切词, 以得到多个子词。
5.一种模型训练方法, 包括:
获取训练页面的超文本信息;
对所述训练页面的超文本信息进行切词, 以得到多个子词;
根据所述超文本信息进行页面渲染, 以确定所述超文本信息中各子词对应的页面元
素;
对所述多个子词加扰, 以得到多个加扰后的子词;
根据多个所述子词对应的页面元素在所述训练页面中的显示位置, 以及所述多个加扰
后的子词, 生成输入编码;
采用所述超文本信息对所述输入编码进行 标注, 得到训练样本;
采用所述训练样本, 对预训练模型进行训练。
6.根据权利要求5所述的方法, 其中, 所述根据多个所述子词对应的页面元素在所述训
练页面中的显示 位置, 以及所述多个加扰后的子词, 生成输入编码, 包括:
根据多个加扰前的子词对应的页面元素在所述训练页面中的显示位置, 确定加扰前的
各子词的第一编码;
根据多个加扰后的子词的词向量、 对应加扰后的子词在所述超文本信息中的文本顺权 利 要 求 书 1/3 页
2
CN 114429106 A
2序, 以及所属的语句中的至少一个或多个组合, 确定加扰后的各子词的第二编码;
将加扰前的各子词的第一编码, 与加扰后的对应子词的第二编码融合, 以得到所述输
入编码。
7.根据权利要求5所述的方法, 其中, 所述采用所述训练样本, 对预训练模型进行训练,
包括:
将所述训练样本 中的输入编码输入预训练模型进行特征提取, 以得到所述训练页面的
预测特征;
根据所述训练页面的预测特征, 采用重建模型预测得到所述训练页面的重建超文本信
息;
根据所述训练样本 中的超文本信 息和所述重建超文本信 息之间的差异, 调 整所述预训
练模型的模型参数。
8.根据权利要求5-7任一项所述的方法, 其中, 所述对所述多个子词加扰, 以得到多个
加扰后的子词, 包括:
采用设定加扰策略, 对所述多个子词加扰, 以得到多个加扰后的子词; 其中, 所述设定
加扰策略包括下列中的至少一个:
对待加扰子词中的超文本标签和/或文本进行字符掩码;
对待加扰子词中的超文本标签和/或文本进行字符顺序调整;
对待加扰子词中的超文本标签进行字符替换;
删除待加扰子词中的超文本标签;
删除待加扰子词中的超文本标签的首个字符和/或末尾字符;
替换待加扰子词中的超文本标签的首个字符和/或末尾字符;
对待加扰子词中的文本插 入干扰字符。
9.一种页面信息处 理装置, 包括:
获取模块, 用于获取目标页面的超文本信息;
切词模块, 用于对所述目标页面的超文本信息进行切词, 以得到多个子词;
确定模块, 用于根据所述超文本信息进行页面渲染, 以确定所述超文本信息中各子词
对应的页面元 素;
提取模块, 用于根据多个所述子词对应的页面元素在所述目标页面中的显示位置, 对
所述目标页面进行 特征提取。
10.根据权利要求9所述的装置, 其中, 所述 提取模块, 包括:
第一确定单元, 用于根据多个所述子词对应的页面元素在所述目标页面中的显示位
置, 确定多个所述子词的第一编码;
第二确定单元, 用于根据多个所述子词的词向量、 对应子词在所述超文本信息中的文
本顺序, 以及对应子词 所属的语句中的至少一个或多个组合, 确定多个所述子词的第二编
码;
融合单元, 用于将多个所述子词的第 一编码, 与对应子词的第二编码融合, 以得到输入
编码;
提取单元, 用于将所述输入编码输入预训练模型进行特征提取, 以得到所述目标页面
的特征。权 利 要 求 书 2/3 页
3
CN 114429106 A
3
专利 页面信息处理方法、装置、电子设备和存储介质
安全报告 >
其他 >
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:57:00上传分享