全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111667407.6 (22)申请日 2021.12.31 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融大街31号 (72)发明人 关迎晖 向勇 郑佳欢 张海平  (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 代理人 王辉 阚梓瑄 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/16(2019.01) G06F 16/9535(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称 网页收藏方法、 装置、 存 储介质及电子设备 (57)摘要 本公开是关于一种网页收藏方法、 装置、 存 储介质及电子设备, 涉及计算机技术领域, 该方 法包括: 先接收针对至少一个网页的收藏请求, 响应于该收藏请求, 获取至少一个网页中包含的 特征词, 通过对特征词聚类, 将表征同一特征簇 的网页划分至一个预选分组, 获得至少一个预选 分组, 特征簇包含至少一个特征词, 再对至少一 个预选分组中包含的网页去重, 最后, 根据至少 一个预选分组构建目标收藏夹, 将预选分组中的 网页对应保存至目标收藏夹中。 这样, 可 以在收 藏请求之后, 自动根据网页包含的特征词保存至 目标收藏夹中, 减少了用户手动操作的工作量, 同时, 也可以提高网页分组的准确度, 从而可 以 提高网页收藏的效率。 权利要求书2页 说明书11页 附图5页 CN 114297466 A 2022.04.08 CN 114297466 A 1.一种网页收藏方法, 其特 征在于, 所述方法包括: 接收针对至少一个网页的收藏请求; 响应于所述收藏请求, 获取 所述至少一个网页中包 含的特征词; 通过对所述特征词聚类, 将表征同一特征簇的网页划分至一个预选分组, 获得至少一 个预选分组; 所述特 征簇包含至少一个特 征词; 对所述至少一个预选分组中包 含的网页去重; 根据所述至少一个预选分组构建目标收藏夹, 将所述预选分组中的网页对应保存至所 述目标收藏夹中。 2.根据权利要求1所述的方法, 其特征在于, 所述获取所述至少一个网页中包含的特征 词, 包括: 提取所述至少一个网页中包 含的文本信息, 得到 至少一个目标文本; 对所述至少一个目标文本进行分词处 理, 每一目标文本分别得到对应的分词结果; 对每一网页的分词结果进行 过滤, 确所述网页包 含的特征词。 3.根据权利要求2所述的方法, 其特征在于, 所述通过对所述特征词聚类, 将表征同一 特征簇的网页划分至一个预选分组, 获得至少一个预选分组, 包括: 根据所述每一网页包 含的特征词, 选取 所述至少一个网页的频繁项集; 从所述至少一个网页的频繁项集中确定最大频繁项集, 以及确定所述最大频繁项集对 应的网页; 将属于同一最大频繁项集的网页划分至一个所述预选分组中, 从而得到所述至少一个 预选分组。 4.根据权利要求3所述的方法, 其特征在于, 所述对所述至少一个预选分组中包含的网 页去重, 包括: 查找所述至少一个预选分组中包 含的网页包 含的重复 网页并删除; 确定所述重复 网页同时属于的多个最大 频繁项集; 将所述重复网页划分至目标最大频繁项集对应的预选分组中; 所述目标最大频繁项集 是从所述多个最大 频繁项集中确定的。 5.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括: 若所述至少一个预选分组中不存在重复网页, 则直接执行所述根据所述至少一个预选 分组构建目标收藏夹, 将所述预选分组中的网页对应保存至所述目标收藏夹中的操作。 6.根据权利要求3所述的方法, 其特征在于, 在根据 所述至少一个预选分组构建目标收 藏夹之前, 还 包括: 获取已生成的第一收藏夹, 以及所述第一收藏夹表征的第一频繁项集; 确定所述第一频繁项集与所述预选分组对应的最大 频繁项集之间的相似度; 将第一预选分组中包含的网页对应保存至所述第 一收藏夹 中; 所述第 一预选分组是所 述相似度大于预设阈值的预选分组。 7.根据权利要求1 ‑6中任一所述的方法, 其特 征在于, 所述方法还 包括: 保存并显示所述目标收藏夹与所述预选分组之间的对应关系。 8.一种网页收藏装置, 其特 征在于, 所述装置包括: 接收模块, 用于 接收针对至少一个网页的收藏请求;权 利 要 求 书 1/2 页 2 CN 114297466 A 2第一获取模块, 用于响应于所述收藏请求, 获取 所述至少一个网页中包 含的特征词; 划分模块, 用于通过对所述特征词聚类, 将表征同一特征簇的网页划分至一个预选分 组, 获得至少一个预选分组; 所述特 征簇包含至少一个特 征词; 去重模块, 用于对所述至少一个预选分组中包 含的网页去重; 第一保存模块, 用于根据所述至少一个预选分组构建目标收藏夹, 将所述预选分组中 的网页对应保存至所述目标收藏夹中。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现权利要求1 ‑7任一项所述的网页收藏方法。 10.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 用于存 储所述处 理器的可 执行指令; 其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1 ‑7任一项所述的 网页收藏方法。权 利 要 求 书 2/2 页 3 CN 114297466 A 3

.PDF文档 专利 网页收藏方法、装置、存储介质及电子设备

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 网页收藏方法、装置、存储介质及电子设备 第 1 页 专利 网页收藏方法、装置、存储介质及电子设备 第 2 页 专利 网页收藏方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:45:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。