全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210420459.1 (22)申请日 2022.04.20 (71)申请人 厦门市美亚柏科信息股份有限公司 地址 361000 福建省厦门市思明区软件园 二期观日路12号102-402单 元 (72)发明人 卓泽键 陈子沣 林淑强 周成祖  (74)专利代理 机构 厦门福贝知识产权代理事务 所(普通合伙) 35235 专利代理师 郭涵炜 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/958(2019.01) G06F 9/445(2018.01) G06F 9/4401(2018.01) G06F 9/50(2006.01) (54)发明名称 网页爬取方法、 装置、 计算设备及存 储介质 (57)摘要 本公开公开一种网页爬取方法、 装置、 计算 设备及存储介质, 该方法包括: 创建爬取队列, 从 消息队列中获取网页地址并将所述网页地址放 入所述爬取队列中; 启动爬虫进程, 并通过所述 爬虫进程启动浏览器对象, 所述爬虫进程由至少 一个线程执行; 控制所述线程所对应的协程从所 述爬取队列中获取所述网页地址, 以使用所述网 页地址发起访问请求, 且在所述协程所发起的访 问请求等待响应时挂起所述协程, 所述线程切换 执行未挂起的协程 以发起新的访问请求或处理 请求返回的响应。 根据本公开实施例可以有效提 高处理器和带宽利用率, 降低系统资源消耗。 权利要求书2页 说明书11页 附图5页 CN 114610975 A 2022.06.10 CN 114610975 A 1.一种网页爬取 方法, 包括: 创建爬取队列, 从消息队列中获取网页地址并将所述网页地址放入所述爬取队列中; 启动爬虫进程, 并通过所述爬虫进程启动浏览器对象, 所述爬虫进程由至少一个线程 执行; 控制所述线程所对应的协程从所述爬取队列中获取所述网页地址, 以使用所述网页地 址对目标页面发起访问请求, 且在所述协程所发起的访问请求等待响应时挂起所述协程, 所述线程切换 执行未挂起的协程以发起 新的访问请求或处 理请求返回的响应。 2.根据权利要求1所述的方法, 其中, 所述启动爬虫进程, 并通过所述爬虫进程启动浏 览器对象, 包括: 所述爬虫进程控制所述浏览器对象启动多个页面对象, 设置所述页面对象的尺寸, 并 对所述浏览器对象进 行身份标识伪装, 其中, 所述页面对象由所述线程所对应的协 程调配, 所述身份标识伪装表征发起访问请求的设备的类型; 所述控制所述线程所对应的协程从所述爬取队列中获取所述网页地址, 以使用所述网 页地址发起访问请求, 包括: 控制所述协程使用所对应的页面对象发起所获取的所述网页地址的访问请求。 3.根据权利要求1所述的方法, 其中, 所述启动爬虫进程, 并通过所述爬虫进程启动浏 览器对象, 包括: 执行规避爬虫检测的网页 脚本。 4.根据权利要求1所述的方法, 其中, 所述启动爬虫进程, 并通过所述爬虫进程启动浏 览器对象, 包括: 对所述浏览器对象执 行重定向日志输出, 以获取 所述浏览器对象的输出内容。 5.根据权利要求1所述的方法, 其中, 所述启动爬虫进程, 并通过所述爬虫进程启动浏 览器对象, 包括: 所述爬虫进程以无头模式启动所述浏览器对象。 6.根据权利要求1 ‑5中的任一项所述的方法, 其中, 还 包括: 控制所述协程在所发起的访问请求获得所述目标页面的响应时, 对所述目标页面进行 渲染; 对渲染后的所述目标页面的网页代码文件保存并对所述目标页面进行截图。 7.根据权利要求6所述的方法, 其中, 所述控制所述协程在所发起的访问请求获得目标 页面响应时, 对所述目标页面进行渲染, 包括: 对所述目标页面进行检测, 且在所述目标页面存在弹窗时关闭所述弹窗。 8.根据权利要求1 ‑5中的任一项所述的方法, 其中, 还 包括: 对所述目标页面的响应进行超时检测, 在所述目标页面的响应等待时长达到预设等待 时长阈值时, 所述协程中断所发起的所述访问请求。 9.根据权利要求8所述的方法, 其中, 在所述目标页面的响应等待时长达到预设等待时 长阈值时, 所述协程中断所发起的所述访问请求之后, 还 包括: 对超时异常进行检测, 并根据检测到的超时异常的类型进行相应处 理。 10.根据权利要求9所述的方法, 其中, 所述根据检测到的超时异常的类型进行相应处 理, 包括:权 利 要 求 书 1/2 页 2 CN 114610975 A 2在所述超时异常属于连接超时或域名临时解析异常时, 重新发起所述访 问请求, 并根 据所述访问请求的重试次数延长所述目标页面的响应等待时长; 在所述超时异常属于连接拒绝异常时, 使用代理IP重新发起所述访问请求; 在所述超时异常属于域名无法解析或连接重置异常时, 控制所述协程从所述爬取队列 中获取新的所述网页地址, 以发起 新的访问请求。 11.一种网页爬取装置, 包括: 队列创建模块, 用于创建爬取队列, 从消息队列中获取网页地址并将所述网页地址放 入所述爬取队列中; 爬取启动模块, 用于启动爬虫进程, 以通过所述爬虫进程启动浏 览器对象, 所述爬虫进 程由至少一个线程执 行; 爬取执行模块, 用于控制所述线程所对应的协程从所述爬取队列中获取所述网页地 址, 以使用所述网页地址发起访问请求, 且在所述协程所发起的访问请求等待响应时挂起 所述协程, 所述线程切换 执行未挂起的协程以发起 新的访问请求或处 理请求返回的响应。 12.根据权利要求1 1所述的网页爬取装置, 其中, 还 包括: 目标页面获取模块, 用于控制所述协程在所发起的访问请求获得所述目标页面的响应 时, 对所述目标页面进行渲染; 对渲染后的所述目标页面的网页代码文件保存并对所述目标页面进行截图。 13.根据权利要求1 1所述的网页爬取装置, 其中, 还 包括: 超时检测模块, 用于对所述目标页面的响应进行超时检测, 在所述目标页面的响应等 待时长达到预设等待时长阈值时, 所述协程中所发起的所述访问请求。 14.根据权利要求13所述的网页爬取装置, 其中, 还 包括: 异常处理模块, 用于对超时异常进行检测, 并根据检测到的超时异常的类型进行相应 处理。 15.一种计算设备, 所述设备包括: 处理器, 以及存储有计算机程序指令的存储器; 所述 处理器读取并执行所述计算机程序指 令, 以实现如权利要求 1‑10中的任意一项 所述的网页 爬取方法。 16.一种计算机存储介质, 所述计算机存储介质上存储有计算机程序指令, 所述计算机 程序指令被处 理器执行时实现如权利要求1 ‑10中的任意 一项所述的网页爬取 方法。权 利 要 求 书 2/2 页 3 CN 114610975 A 3

.PDF文档 专利 网页爬取方法、装置、计算设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 网页爬取方法、装置、计算设备及存储介质 第 1 页 专利 网页爬取方法、装置、计算设备及存储介质 第 2 页 专利 网页爬取方法、装置、计算设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:07:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。