全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210633456.6 (22)申请日 2022.06.06 (71)申请人 阿里云计算有限公司 地址 310012 浙江省杭州市西湖区转塘科 技经济区块12号 (72)发明人 傅凌进 吴瀚宇 徐融冰 刘同华  贺同 蒋勇翔 高西蒙 喻振华  孔琳琳 吴翰清  (74)专利代理 机构 北京太合九思知识产权代理 有限公司 1 1610 专利代理师 刘瑞霞 (51)Int.Cl. G06F 16/951(2019.01) G06F 40/30(2020.01) G06F 16/35(2019.01)G06N 3/04(2006.01) (54)发明名称 页面关联 方法、 设备及存 储介质 (57)摘要 本申请实施例提供一种页面关联方法、 设备 及存储介质。 在本申请实施例中, 通过对待显示 页面的页面信息进行语义分析, 得到页面信息的 语义向量; 之后, 根据页面信息的语义向量, 确定 页面信息的关联信息。 因此, 确定出的页面信息 的关联信息融合了页面信息的语义。 页面信息的 关联信息与页面信息语义相关, 使得页面信息的 关联信息与页面信息的内容相关性更为准确。 进 而, 通过页面信息的关系信息确定出的待显示页 面的关联页面的准确性较高, 从而对待显示页面 和关联页面进行页面互链, 得到的相关内容聚合 页的内容相关性较为准确, 因此, 本申请实施例 提供的页面关联方法有助于提高页面关联的准 确度。 权利要求书3页 说明书14页 附图3页 CN 115168685 A 2022.10.11 CN 115168685 A 1.一种页面关联 方法, 其特 征在于, 包括: 获取待显示页面的页面信息; 对所述页面信息进行语义 提取, 以确定所述页面信息的语义向量; 根据所述页面信息的语义向量, 确定所述页面信息的关联信息; 根据所述页面信息的关联信息, 确定所述待显示页面的关联页面; 对所述待显示页面和所述关联页面进行页面互链, 以得到相关内容聚合页。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述页面信息进行语义提取, 以确 定所述页面信息的特 征向量, 包括: 利用隐含语义编码模型对所述页面信 息进行语义提取, 以得到所述页面信 息的语义向 量。 3.根据权利要求2所述的方法, 其特征在于, 在利用隐含语义编码模型对所述页面信 息 进行语义 提取之前, 还 包括: 获取已知语义相关的正样本对和已知语义无关的负样本对; 所述正样本对包括: 语义 相关的文本; 所述负 样本对包括: 语义无关的文本; 以损失函数最小化为训练目标, 利用所述正样本对和所述负样本对对初始隐含语义编 码模型进行模型训练, 以得到所述隐含语义编码模型; 其中, 所述损失函数是根据模型训练输出的所述正样本对的相关性与 所述正样本对的 相关性真值之间的差异, 以及, 模型训练输出 的所述负样本对的相关性与所述负样本对的 相关性真值之间的差异确定的。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述页面信息的语义向量, 确定 所述页面信息的关联信息, 包括: 利用所述页面信 息的语义向量在文本向量库中进行向量召回, 以从所述语义向量库中 选择所述页面信息对应的候选文本向量; 根据所述 候选文本向量, 确定目标文本向量; 确定所述目标文本向量对应的文本信息, 为所述页面信息的关联信息 。 5.根据权利要求4所述的方法, 其特征在于, 所述利用所述页面信 息的语义向量在文本 向量库中进行向量召回, 以从所述文本 向量库中选择所述页面信息对应的候选文本 向量, 包括: 利用近似最近邻算法, 对所述文本向量库进行空间划分, 得到多层文本向量空间; 根据指定的候选文本向量的数量, 从多层文本向量空间中确定所述页面信 息的语义向 量所属的目标文本向量子空间; 从目标文本向量子空间包 含的文本向量中选择 所述候选文本向量。 6.根据权利要求4所述的方法, 其特征在于, 所述根据所述候选文本向量, 确定所述目 标文本向量, 包括: 计算所述页面信息的语义向量与所述 候选文本向量之间的相似度; 根据所述页面信息包含的所述待显示页面的上下文信息及所述页面信息的语义向量 与所述候选文本向量之间的相似度, 从所述 候选文本向量中选择目标文本向量。 7.根据权利要求1所述的方法, 其特征在于, 所述根据所述页面信息的关联信息, 确定 所述待显示页面的关联页面, 包括:权 利 要 求 书 1/3 页 2 CN 115168685 A 2利用所述页面信 息的关联信 息, 在预先生成的组合词与页面之间的对应关系中进行查 询, 以得到所述页面信息的关联信息对应的页面, 作为所述待显示页面的关联页面。 8.根据权利要求7 所述的方法, 其特 征在于, 还 包括: 对已知词库中的词语进行词性分析, 以确定所述已知词库中词语的词性; 根据所述已知词库中词语的词性, 对所述已知词库中的词语进行组合, 以得到候选组 合词; 对所述候选组合词进行有效性识别, 以从所述 候选组合词中确定有效组合词; 确定所述有效组合词对应的页面; 根据所述有 效组合词和所述有 效组合词对应的页面, 生成所述组合词与页面之间的对 应关系。 9.根据权利要求8所述的方法, 其特征在于, 所述对所述候选组合词进行有效性识别, 以从所述 候选组合词中确定有效组合词, 包括: 利用所述候选组合词在网站内容中进行查询; 确定在网站内容中查询到的候选组合词 为所述有效组合词; 和/或, 获取用户在网站使用的词语; 从所述候选组合词中选择与所述用户在网站使用的词语 对应的候选组合词, 作为所述有效组合词。 10.根据权利要求8所述的方法, 其特征在于, 所述确定所述有 效组合词对应的页面, 包 括: 利用所述有 效组合词在网站的页面内容中进行搜索; 确定搜索到所述有 效组合词的页 面内容对应的页面, 为所述有效组合词对应的页面; 和/或, 从网站的页面中, 获取用户利用有效组合词访 问的页面; 根据所述用户利用有效组合 词访问的页面, 确定所述有效组合词对应的页面; 和/或, 对所述有效组合词进行语义分析, 以确定所述有效组合词的语义向量; 根据所述有效 组合词的语义向量, 确定所述有效组合词的关联词语; 根据所述有效组合词的关联词语, 确 定所述有效组合词对应的页面; 和/或, 确定所述有效组合词的应用场景和/或类别信 息; 确定所述应用场景和/或类别信 息下 的页面为所述有效组合词对应的页面。 11.根据权利要求1所述的方法, 其特征在于, 所述对所述待显示页面和所述关联页面 进行页面互链, 包括: 获取所述关联页面的显示元 素信息和统一资源定位标识符信息; 将所述关联页面的显示元素信息和 统一资源定位标识符信息嵌入所述待显示页面的 HTML代码中, 以对所述待显示页面和所述关联页面进 行页面互链得到所述相关内容聚合页 的HTML代码。 12.根据权利要求1 1所述的方法, 其特 征在于, 还 包括: 执行所述相关内容聚合页的HTML代码, 以展示所述相关内容聚合页。权 利 要 求 书 2/3 页 3 CN 115168685 A 3

.PDF文档 专利 页面关联方法、设备及存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 页面关联方法、设备及存储介质 第 1 页 专利 页面关联方法、设备及存储介质 第 2 页 专利 页面关联方法、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。