全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210874302.6 (22)申请日 2022.07.22 (71)申请人 上海新致软件股份有限公司 地址 200120 上海市中国 (上海) 自由贸易 试验区峨山路91弄98号 (软件园1号 楼) 第四层至第六层 (72)发明人 胡卉 周彧  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 吕爱霞 (51)Int.Cl. G06F 16/951(2019.01) G06F 9/48(2006.01) G06F 9/50(2006.01) G06F 9/54(2006.01) (54)发明名称 网络内容爬取方法、 电子设备和存 储介质 (57)摘要 本申请提供网络内容爬取方法、 电子 设备和 存储介质。 网络爬虫包括主爬虫、 任务分发平台 和用于处理不同任务类型的多个子爬虫, 该方法 包括: 主爬虫向任务分发平台发送网络内容爬取 任务的目标任务类型, 其中, 所述目标任务类型 根据所述网络内容爬取任务的任务处理请求中 所携带的任务信息确定; 任务分发平台根据所述 目标任务类型, 将所述网络内容爬取任务分配至 对应的子爬虫进行处理。 由于在该网络内容的爬 取过程中, 对网络内容爬取任务划分了任务类 型, 并利用对应的子爬虫进行处理, 因此在大规 模的网络内容爬取过程中, 能够降低阻塞的可能 性。 权利要求书1页 说明书7页 附图4页 CN 115186160 A 2022.10.14 CN 115186160 A 1.一种网络内容爬取方法, 其特征在于, 网络爬虫包括主爬虫、 任务分发平台和用于处 理不同任务类型的多个子 爬虫, 包括: 主爬虫向任务分发平台发送网络内容爬取任务的目标任务类型, 其中, 所述目标任务 类型根据所述网络内容爬取任务的任务处 理请求中所携带的任务信息确定; 任务分发平台根据所述目标任务类型, 将所述网络内容爬取任务分配至对应的子爬虫 进行处理。 2.根据权利要求1所述的方法, 其特征在于, 所述网络爬虫还包括资源调度平台; 以及, 所述方法还 包括: 所述资源调度平台获取 各个子爬虫中不同类型资源的已使用信息; 所述资源调度平台根据 各个子爬虫中不同类型资源的已使用信 息, 确定各个子爬虫用 于处理的任务类型。 3.根据权利要求2所述的方法, 其特 征在于, 资源的类型包括CPU资源、 内存资源、 磁 盘资源、 网络带宽资源和物理地址资源; 以及, 任务类型包括CPU资源密集型任务、 内存资源密集型任务、 磁盘资源密集型任务、 网络 带宽资源密集型任务和物理地址资源密集型任务。 4.根据权利要求2所述的方法, 其特征在于, 所述资源调度平台获取各个子爬虫中不同 类型资源的已使用信息, 具体包括: 所述资源调度平台获取 各个子爬虫周期性上报的, 不同类型资源的已使用信息 。 5.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 主爬虫获取所述网络 内容爬取任务的任务处理请求, 所述任务处理请求中携带有所述 任务信息 。 6.根据权利要求5所述的方法, 其特 征在于, 任务处理请求由用户在终端所展示的页面所输入; 或, 任务处理请求通过定时任务的触发所生成。 7.根据权利要求1所述的方法, 其特征在于, 主爬虫向任务分发平台发送网络 内容爬取 任务的目标任务类型, 具体包括: 主爬虫通过消息队列总线, 向任务分发平台发送网络内容爬取任务的目标任务类型。 8.根据权利 要求1所述的方法, 其特征在于, 所述主爬虫具体包括: 基于Node.j s架构的 主爬虫。 9.一种电子设备, 其特 征在于, 包括: 存储器, 用以存 储计算机程序; 处理器, 用以执 行如权利要求1至9中任一项所述的方法。 10.一种存储介质, 其特征在于, 包括: 程序, 当其在电子设备上运行时, 使得电子设备 可执行如权利要求1至9中任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 115186160 A 2网络内容爬取方 法、 电子设备和存储介质 技术领域 [0001]本申请涉及互联 网技术领域, 具体而 言, 涉及网络内容爬取方法、 电子设备和存储 介质。 背景技术 [0002]随着科学技术的不断发展, 通常需要利用网络爬虫, 从网络中进行内容的爬取。 然 而, 目前的网络 爬虫在大规模的网络内容爬取 过程中, 容 易出现阻塞的现象。 发明内容 [0003]本申请实施例的目的在于提供网络内容爬取方法、 电子设备和存储介质, 用于解 决现有技 术中的问题。 [0004]本申请实施例第一方面提供了一种网络内容爬取方法, 其特征在于, 网络爬虫包 括主爬虫、 任务分发平台和用于处 理不同任务类型的多个子 爬虫, 包括: [0005]主爬虫向任务分发平台发送网络内容爬取任务的目标任务类型, 其中, 所述目标 任务类型根据所述网络内容爬取任务的任务处 理请求中所携带的任务信息确定; [0006]任务分发平台根据所述目标任务类型, 将所述网络内容爬取任务分配至对应的子 爬虫进行处 理。 [0007]于一实施例中, 所述网络 爬虫还包括资源调度平台; 以及, 所述方法还 包括: [0008]所述资源调度平台获取 各个子爬虫中不同类型资源的已使用信息; [0009]所述资源调度平台根据各个子爬虫 中不同类型资源的已使用信息, 确定各个子爬 虫用于处 理的任务类型。 [0010]于一实施例中, 资源的类型包括CPU 资源、 内存 资源、 磁盘资源、 网络带宽资源和物 理地址资源; 以及, [0011]任务类型包括CPU资源密集型任务、 内存资源密集型任务、 磁盘资源密集型任务、 网络带宽资源密集型任务和物理地址资源密集型任务。 [0012]于一实施例中, 所述资源调度平台获取各个子爬虫中不同类型资源的已使用信 息, 具体包括: [0013]所述资源调度平台获取 各个子爬虫周期性上报的, 不同类型资源的已使用信息 。 [0014]于一实施例中, 所述方法还 包括: [0015]主爬虫获取所述网络内容爬取任务的任务处理请求, 所述任务处理请求中携带有 所述任务信息 。 [0016]于一实施例中, 任务处 理请求由用户在终端所展示的页面所输入; 或, [0017]任务处理请求通过定时任务的触发所生成。 [0018]于一实施例中, 主爬虫向任务分发平台发送网络内容爬取任务的目标任务类型, 具体包括: [0019]主爬虫通过消息队列总线, 向任务分发平台发送网络内容爬取任务的目标任务类说 明 书 1/7 页 3 CN 115186160 A 3

.PDF文档 专利 网络内容爬取方法、电子设备和存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 网络内容爬取方法、电子设备和存储介质 第 1 页 专利 网络内容爬取方法、电子设备和存储介质 第 2 页 专利 网络内容爬取方法、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:33:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。