专利 页面信息处理方法、装置、电子设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111647739.8 (22)申请日 2021.12.2 9 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人柴业坤　王硕寰　孙宇　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 代理人杜月 (51)Int.Cl. G06F 40/143(2020.01) G06F 40/146(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称页面信息处理方法、装置、电子设备和存储介质 (57)摘要本公开公开了一种页面信息处理方法、装置、电子设备和存储介质，涉及人工智能领域，尤其涉及深度学习和自然语言处理领域。具体实现方案为：通过获取目标页面的超文本信息，对目标页面的超文本信息进行切词，以得到多个子词，从而根据超文本信息进行页面渲染，以确定超文本信息中各子词对应的页面元素，进而根据多个子词对应的页面元素在目标页面中的显示位置，对目标页面进行特征提取。基于超文本信息中各子词对应的页面元素的显示位置，对超文本信息对应的目标页面进行特征提取，从而可以在提取到的特征中携带有目标页面的结构化信息和富文本信息，增强了特征携带的信息量，以便执行后续任务时提高任务执行的准确度。权利要求书3页说明书15页附图7页 CN 114429106 A 2022.05.03 CN 114429106 A 1.一种页面信息处理方法，包括：获取目标页面的超文本信息；对所述目标页面的超文本信息进行切词，以得到多个子词；根据所述超文本信息进行页面渲染，以确定所述超文本信息中各子词对应的页面元素；根据多个所述子词对应的页面元素在所述目标页面中的显示位置，对所述目标页面进行特征提取。 2.根据权利要求1所述的方法，其中，所述根据多个所述子词对应的页面元素在所述目标页面中的显示位置，对所述目标页面进行特征提取，包括：根据多个所述子词对应的页面元素在所述目标页面中的显示位置，确定多个所述子词的第一编码；根据多个所述子词的词向量、对应子词在所述超文本信息中的文本顺序，以及对应子词所属的语句中的至少一个或多个组合，确定多个所述子词的第二编码；将多个所述子词的第一编码，与对应子词的第二编码融合，以得到输入编码；将所述输入编码输入预训练模型进行特征提取，以得到所述目标页面的特征。 3.根据权利要求2所述的方法，其中，所述根据多个所述子词对应的页面元素在所述目标页面中的显示位置，确定多个所述子词的第一编码，包括：针对任意的一个子词，根据对应页面元素中第一角点距离所述目标页面边缘的距离，以及所述页面元素中与所述第一角点对角的第二角点距离所述目标页面边缘的距离，确定所述第一编码。 4.根据权利要求1－3任一项所述的方法，其中，所述对所述目标页面的超文本信息进行切词，以得到多个子词，包括：对所述目标页面的超文本信息，采用子词切分器对所述超文本信息中的文本和超文本标签进行切词，以得到多个子词。 5.一种模型训练方法，包括：获取训练页面的超文本信息；对所述训练页面的超文本信息进行切词，以得到多个子词；根据所述超文本信息进行页面渲染，以确定所述超文本信息中各子词对应的页面元素；对所述多个子词加扰，以得到多个加扰后的子词；根据多个所述子词对应的页面元素在所述训练页面中的显示位置，以及所述多个加扰后的子词，生成输入编码；采用所述超文本信息对所述输入编码进行标注，得到训练样本；采用所述训练样本，对预训练模型进行训练。 6.根据权利要求5所述的方法，其中，所述根据多个所述子词对应的页面元素在所述训练页面中的显示位置，以及所述多个加扰后的子词，生成输入编码，包括：根据多个加扰前的子词对应的页面元素在所述训练页面中的显示位置，确定加扰前的各子词的第一编码；根据多个加扰后的子词的词向量、对应加扰后的子词在所述超文本信息中的文本顺权　利　要　求　书 1/3 页 2 CN 114429106 A 2序，以及所属的语句中的至少一个或多个组合，确定加扰后的各子词的第二编码；将加扰前的各子词的第一编码，与加扰后的对应子词的第二编码融合，以得到所述输入编码。 7.根据权利要求5所述的方法，其中，所述采用所述训练样本，对预训练模型进行训练，包括：将所述训练样本中的输入编码输入预训练模型进行特征提取，以得到所述训练页面的预测特征；根据所述训练页面的预测特征，采用重建模型预测得到所述训练页面的重建超文本信息；根据所述训练样本中的超文本信息和所述重建超文本信息之间的差异，调整所述预训练模型的模型参数。 8.根据权利要求5－7任一项所述的方法，其中，所述对所述多个子词加扰，以得到多个加扰后的子词，包括：采用设定加扰策略，对所述多个子词加扰，以得到多个加扰后的子词；其中，所述设定加扰策略包括下列中的至少一个：对待加扰子词中的超文本标签和/或文本进行字符掩码；对待加扰子词中的超文本标签和/或文本进行字符顺序调整；对待加扰子词中的超文本标签进行字符替换；删除待加扰子词中的超文本标签；删除待加扰子词中的超文本标签的首个字符和/或末尾字符；替换待加扰子词中的超文本标签的首个字符和/或末尾字符；对待加扰子词中的文本插入干扰字符。 9.一种页面信息处理装置，包括：获取模块，用于获取目标页面的超文本信息；切词模块，用于对所述目标页面的超文本信息进行切词，以得到多个子词；确定模块，用于根据所述超文本信息进行页面渲染，以确定所述超文本信息中各子词对应的页面元素；提取模块，用于根据多个所述子词对应的页面元素在所述目标页面中的显示位置，对所述目标页面进行特征提取。 10.根据权利要求9所述的装置，其中，所述提取模块，包括：第一确定单元，用于根据多个所述子词对应的页面元素在所述目标页面中的显示位置，确定多个所述子词的第一编码；第二确定单元，用于根据多个所述子词的词向量、对应子词在所述超文本信息中的文本顺序，以及对应子词所属的语句中的至少一个或多个组合，确定多个所述子词的第二编码；融合单元，用于将多个所述子词的第一编码，与对应子词的第二编码融合，以得到输入编码；提取单元，用于将所述输入编码输入预训练模型进行特征提取，以得到所述目标页面的特征。权　利　要　求　书 2/3 页 3 CN 114429106 A 3

专利 页面信息处理方法、装置、电子设备和存储介质

专利页面信息处理方法、装置、电子设备和存储介质