全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111497622.6 (22)申请日 2021.12.09 (71)申请人 北京知道创宇信息技 术股份有限公 司 地址 100000 北京市朝阳区阜通 东大街1号 院5号楼1单 元311501室 (72)发明人 龙阳雨  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 代理人 戴尧罡 (51)Int.Cl. H04L 9/40(2022.01) G06K 9/62(2022.01) H04L 67/02(2022.01) (54)发明名称 目标用户的识别方法、 装置、 电子设备及存 储介质 (57)摘要 本发明的实施例提供了一种目标用户的识 别方法、 装置、 电子设备及存储介质, 涉及互联网 技术领域。 该方法获取待识别用户的网页访问路 径信息, 将网页访问路径信息与链路数量阈值进 行比较。 当网页访问路径信息大于或等于链路数 量阈值时, 确定待识别用户的页面链路相似度。 当页面链路相似度小于相似度阈值, 或 网页访问 路径信息小于或等于链路数量阈值时, 则根据待 识别用户的网页特征信息及目标用户的网页特 征信息, 确定待识别用户是否为目标用户。 当页 面链路相似度大于或等于相似度阈值时, 则待识 别用户不属于目标用户。 如此, 即使异常用户采 用新的方式获取利益, 也能根据待识别用户的网 页访问路径, 确定出 该异常用户, 即目标用户。 权利要求书3页 说明书10页 附图5页 CN 114257427 A 2022.03.29 CN 114257427 A 1.一种目标用户的识别方法, 其特 征在于, 包括: 获取待识别用户的网页访问路径信 息, 所述网页访问路径信 息表征具有访问顺序及页 面类型的页面链路数量信息; 将所述网页访问路径信 息与链路数量阈值进行比较, 所述链路数量阈值表征正常用户 的页面链路数量; 当所述网页访问路径信 息大于所述链路数量阈值 时, 确定所述待识别用户的页面链路 相似度; 所述页面链路相似度 表征所述待识别用户访问的页面链路与正常用户访问的页面 链路的相似程度; 当所述页面链路相似度小于相似度阈值, 或所述网页访问路径信 息小于或等于所述链 路数量阈值时, 则根据所述待识别用户的网页信息及目标用户的网页信息, 确定所述待识 别用户是否为所述目标用户; 当所述页面链路相似度 大于或等于所述相似度阈值 时, 则所述待识别用户不属于目标 用户。 2.根据权利要求1所述的方法, 其特征在于, 所述网页访 问路径信息为页面链路序列, 所述获取待识别用户的网页访问路径信息的步骤, 包括: 获取所述待识别用户的网站访问数据, 所述网站访问数据包含所述待识别用户访问的 每个网页信息; 根据访问时序对每 个所述网页信息进行排序; 根据每个所述网页信息的类型进行归类, 获得每 个所述网页信息对应的页面类型; 根据排序结果和所述页面类型, 获得所述页面链路序列, 所述页面链路序列包含的每 个元素表征一种页面类型的网页信息 。 3.根据权利要求2所述的方法, 其特征在于, 所述将所述网页访问路径信 息与链路数量 阈值进行比较的步骤, 包括: 将所述页面链路序列的长度与链路数量阈值进行比较。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述待识别用户的网页 特征信息 及目标用户的网页特 征信息, 确定所述待识别用户是否为所述目标用户的步骤, 包括: 获取所述待识别用户的网站访问数据; 提取所述网站访问数据中的目标信 息, 所述目标信 息为预置与 所述目标用户匹配的网 页信息; 根据所述待识别用户的目标信 息及全部网页信 息, 确定所述待识别用户是否为所述目 标用户; 当所述待识别用户的目标信息数量与全部网页信息数量的占比大于或等于占比阈值 时, 则所述待识别用户为所述目标用户; 当所述待识别用户的目标信 息数量与全部网页信 息数量的占比小于所述占比阈值 时, 则所述待识别用户不属于所述目标用户。 5.根据权利要求2所述的方法, 其特征在于, 所述确定所述待识别用户的页面链路相似 度的步骤, 包括: 根据所述页面类型, 对所述页面链路序列中相邻的元素进行去重, 获得去重页面链路 序列;权 利 要 求 书 1/3 页 2 CN 114257427 A 2根据所述去重页面链路序列与正常用户的频繁项, 获得所述待识别用户的页面链路相 似度; 所述 正常用户的频繁项表征 所述正常用户频繁访问的页面链路。 6.根据权利要求5所述的方法, 其特征在于, 所述待识别用户的页面链路相似度满足如 下公式: 其中, 所述U为去重页面链路序列、 所述F为所述正常用户的频繁项、 所述ωi为第i个正 常用户的频繁项对应的权重、 所述D(U,Fi)为所述去重页面链路序列与所述正常用户的频 繁项的距离、 所述 n为正整数; 其中, 所述ωi满足如下公式: 其中, 所述Supi为所述第i个正常用户的频繁项出现的次数; 所述D(U,Fi)满足如下公式: 其中, 所述K(U,F)为所述去重页面链路序列与所述正常用户的频繁项的重合度; 所述J (U,F)为所述去重页面链路序列 与所述正常用户的频繁项的包 含度; 所述K(U,F)满足如下公式: 所述J(U,F)满足如下公式: 7.一种目标用户的识别装置, 其特 征在于, 所述装置包括: 存储模块, 用于存储链路数量阈值、 相似度阈值及目标用户的网页 特征信息, 所述链路 数量阈值表征正常用户的页面链路数量; 逻辑处理模块, 用于获取待识别用户的网页访 问路径信息, 所述网页访 问路径信息表 征具有访问顺序及页面类型的页面链路数量信息; 将所述网页访问路径信息与 链路数量阈 值进行比较; 当所述网页访问路径信息大于或等于所述链路数量阈值时, 确定所述待识别 用户的页面链路相似度; 所述页面链路相似度表征所述待识别用户访问的页面链路与正常 用户访问的页面链路的相似程度; 当所述页面链路相似度小于相似度阈值, 或所述网页访 问路径信息小于或等于所述链路数量阈值时, 则根据所述待识别用户的网页特征信息及目 标用户的网页特征信息, 确定所述待识别用户是否为所述 目标用户; 当所述页面链路相似 度大于或等于所述相似度阈值时, 则所述待识别用户不属于目标用户。 8.根据权利要求7所述的装置, 其特征在于, 所述网页访 问路径信息为页面链路序列, 所述逻辑处 理模块用于获取待识别用户的网页访问路径信息的步骤, 包括: 获取所述待识别用户的网站访问数据, 所述网站访问数据包含所述待识别用户访问的 每个网页信息; 根据访问时序对每 个所述网页信息进行排序;权 利 要 求 书 2/3 页 3 CN 114257427 A 3

.PDF文档 专利 目标用户的识别方法、装置、电子设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 目标用户的识别方法、装置、电子设备及存储介质 第 1 页 专利 目标用户的识别方法、装置、电子设备及存储介质 第 2 页 专利 目标用户的识别方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:41:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。