专利基于机器学习的网页采集页面的正文页采集方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211314510.7 (22)申请日 2022.10.26 (71)申请人墨责（北京）科技传播有限公司地址 100037 北京市海淀区车公庄西路45 号二层033号 (72)发明人邹吉明　林凡林　刘雨钦　梁延肇　胡博　 (74)专利代理机构北京天达知识产权代理事务所有限公司 1 1386 专利代理师李明里 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/958(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称基于机器学习的网页采集页面的正文页采集方法 (57)摘要本发明涉及一种基于机器学习的网页采集页面的正文页采集方法，包括：建立训练集，对训练集中所包括正文页数据，进行预处理和页面特征数据提取；基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型；对通过爬虫采集到的页面数据，进行预处理和页面特征数据提取得到页面特征数据；将页面特征数据输入训练后的正文页判别模型进行正文页检测；对检测为正文页的页面，提取出页面内的正文数据存储到采集库中；对检测为列表页的页面，提取其中的链接地址并加入到爬虫的采集队列中，用于关联正文页的采集。本发明大大降低网站采集配置难度和网站改版风险，减轻网站采集的工作量。权利要求书2页说明书6页附图2页 CN 115374334 A 2022.11.22 CN 115374334 A 1.一种基于机器学习的网页采集页面的正文页采集方法，其特征在于，包括以下步骤：步骤S1、建立训练集，对训练集中所包括正文页数据，进行预处理和页面特征数据提取；基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型；步骤S2、对通过爬虫采集到的页面数据，进行预处理和页面特征数据提取得到页面特征数据；将页面特征数据输入训练后的正文页判别模型进行正文页检测；步骤S3、对检测为正文页的页面，提取出页面内的正文数据存储到采集库中；对检测为列表页的页面，提取其中的链接地址并加入到爬虫的采集队列中，用于关联正文页的采集。 2.根据权利要求1所述的基于机器学习的网页采集页面的正文页采集方法，其特征在于，步骤S1中的训练过程包括：步骤S101、对训练集中的正样本数据行预处理清洗，去除干扰因子；所述正样本数据为标记为正文的网页样本数据；步骤S102、提取预处理后的正样本数据的特征数据；步骤S103、利用提取的特征数据训练分类器得到训练后的正文页判别模型；步骤S104、采用负样本对训练后的正文页判别模型进行验证；所述负样本为标记为非正文的网页样本数据。 3.根据权利要求2所述的基于机器学习的网页采集页面的正文页采集方法，其特征在于，预处理清洗包括：删除页面中的JavaScript脚本，包括<script>、 <n oscript>节点及其内容；删除页面CS S样式内容，包括<style >、 <link>节点及其内容；删除页面中包括<iframe >、 <br/>在内的与内容特征提取无关节点。 4.根据权利要求2所述的基于机器学习的网页采集页面的正文页采集方法，其特征在于，在提取预处理后的正样本数据的特征数据过程中，包括：将预处理后的正样本数据生成DOM树；递归遍历整个DOM树提取包括标签特征和文本特征在内的网页特征；对提取的网页特征进行统计得到预处理后的正样本数据的特征数据。 5.根据权利要求4所述的基于机器学习的网页采集页面的正文页采集方法，其特征在于，提取的网页特征包括标签<a>链接特征、段落<p>标签特征、以及<a>、 <p >标签中内容的文本特征和标点符号特征。 6.根据权利要求5所述的基于机器学习的网页采集页面的正文页采集方法，其特征在于，对提取的网页特征进行统计得到预处理后的正样本数据的特征数据为十二维特征；具体包括：特征一，通过统计所有签中的文字字符数量，得到总字符数量特征；特征二，通过统计所有标签数量，得到总标签数量特征；特征三，通过统计标签<a>的总数量，得到标签A的数量特征；权　利　要　求　书 1/2 页 2 CN 115374334 A 2特征四，通过统计标签<p>的总数量，得到标签P的数量特征；特征五，通过统计标签<a>中的所有文字字符数量，得到链接中的字符数量特征；特征六，通过计算标签<a>字符总数量/标签<a> 数量，得到链接中字符数量占比特征；特征七，通过统计标签<p>中的所有文字字符数量，得到标签P中字符数量特征；特征八，通过计算标签<p>字符总量/标签<p> 数量，得到标签P中字符数量占比特征；特征九，通过计算(总字符数量 ‑标签<a>字符数量)/ （总标签数量 ‑标签A的数量），得到文本密度特征；特征十，通过基于正则计算文本中常用标点符号数量，得到标点符号数量特征；特征十一，通过计算标点符号数量/标签数量，得到标点符号密度特征；特征十二，通过计算文本密度的最大值，得到最大文本密度特征。 7.根据权利要求1 ‑6任一项所述的基于机器学习的网页采集页面的正文页采集方法，其特征在于，所述正文页判别模型采用One Class SVM分类器。 8.根据权利要求7所述的基于机器学习的网页采集页面的正文页采集方法，其特征在于，所述One Class SVM分类器为改进后的One Class SVM分类器；在改进后的One Class SVM分类器中，对每一维特征对应的RBF核函数进行不同权重的加权，得到修正后的核函数。 9.根据权利要求8所述的基于机器学习的网页采集页面的正文页采集方法，其特征在于，所述修正后的RBF核函数：其中，为第i维特征对应的RBF核带宽；为第i维特征对应的权重值， N=12为特征的总维数。 10.根据权利要求9所述的基于机器学习的网页采集页面的正文页采集方法，其特征在于，每一维特征对应权重值的确定方法，包括： 1）利用标准RBF核函数的One Class SVM分类器，对同一批验证数据集中的样本，分别以十二维特征中的单维特征为分类特征进行分类； 2）对以每一维特征进行分类的分类结果进行打分； 3）根据打分结果确定出十二维特征的权重值，打分结果越高，权重值越大。权　利　要　求　书 2/2 页 3 CN 115374334 A 3

专利 基于机器学习的网页采集页面的正文页采集方法

专利基于机器学习的网页采集页面的正文页采集方法