(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210917286.4
(22)申请日 2022.08.01
(71)申请人 南京信息 工程大学
地址 210000 江苏省南京市宁六路219号
(72)发明人 朱婷婷 邱玉琢 王蒙蒙 夏宇
徐广路
(74)专利代理 机构 北京众合诚成知识产权代理
有限公司 1 1246
专利代理师 陈国强
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/338(2019.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种融合主题模型的图书馆平台语义检索
方法
(57)摘要
本发明涉及信息检索技术领域, 具体是一种
融合主题模 型的图书馆平台语义检索方法, 包括
对所有被检索的文档进行数据预处理, 得到合格
的被检索文档; 利用布尔模型将用户的检索词语
与合格的被检索文档进行匹配, 根据匹配结果将
文档分类并赋 予不同的权重值; 利用主题模型对
合格的被检索文档进行计算, 得到每个文档的主
题分布和主题单词的分布; 将主题单词的频数分
布转换为单词主题分布; 计算检索词的单词主题
分布与被检索文档的之间的相似性分数; 利用文
档权重与相似性分数计算检索词与各个被检索
文档的联系分数, 并根据联系分数进行排序后将
查询结果返回给用户。 本发明可以大大提高图书
馆平台语义检索效率, 有效满足用户检索知 识服
务的需求。
权利要求书3页 说明书6页 附图4页
CN 115329038 A
2022.11.11
CN 115329038 A
1.一种融合主题模型的图书馆平台语义检索方法, 其特 征在于: 包括以下步骤:
S1、 对所有被检索的文档进行数据预处理, 通过分词、 清洗、 标准化之后得到合格的被
检索文档;
S2、 利用布尔模型将用户的检索词语与S1中得到的合格的被检索文档进行匹配, 根据
匹配结果将所有 文档分为相关与不相关两类并赋予不同的权 重值;
S3、 利用主题模型对S1处理的被检索文档进行计算, 得到每个文档的主题分布和主题
单词的分布;
S4、 将S3得到的主题单词的频 数分布转换为单词主题分布;
S5、 计算检索词的单词主题分布与被 检索文档的之间的相似性分数;
S6、 利用S2中的文档权重与S5中的相似性分数计算检索词与各个被检索文档的联系分
数, 并根据联系分数进行排序后将查询结果返回给用户。
2.根据权利要求1所述的一种融合主题模型的图书馆平台语义检索方法, 其特征在于:
所述S1中, 数据预处理具体包括: 将文档集合D进行分词操作, 对文档dn分词后得到dn=(w1,
w2,……); 接着对分词后的文档进行清洗操作, 清洗过程中去掉无用的标签、 特殊符号和停
用词; 最后对文本内容进行标准化, 将部分文本中的同一个单词具有不同的形态转化为同
一种形式。
3.根据权利要求1所述的一种融合主题模型的图书馆平台语义检索方法, 其特征在于:
所述S2中, 在基于布尔模型的匹配中, 被检索文档 D可表示为: D =(d1,d2,d3,…,dn), 用户的
检索Q可表示为: Q=(q1,q2,q3,…), 其中dn表示第n个被检索文档, q1表示第一个检索词; 布
尔模型中有三个主要逻辑算符, 分别是与(and), 或(or), 非(not), 假设用户查询包含两个
检索词q1和q2, 考虑不同逻辑算符下单词的条件, 条件有四个: (1)q1and q2; (2)q1or q2; (3)
q1not q2,(4)q2not q1,为不同文档赋予权 重的公式可以表示 为:
其中,
表示文档dn的权重, 因此, 被 检索文档具有不同的权 重系数。
4.根据权利要求3所述的一种融合主题模型的图书馆平台语义检索方法, 其特征在于:
所述S3中, 主题模型的生成过程共分为四步:
S31、 对于主题z, 根据Dirichlet分布Dir( β )得到该主题上的一个单词多项式分布向量
φ;
S32、 根据泊松分布P得到文本的单词数目N;
S33、 根据Diric hlet分布Dir( α )得到该文本的一个主题分布概 率向量θ;
S34、 对于该文本M个单词中的每一个单词Wm, 先从θ 的多项式分布Multinomial( θ )随机
选择一个主题z; 再从主题z的多 项式条件概 率分布Multi nomial(φ)选择一个单词作为 Wm;
利用gibbs抽样方法对上面的生成过程进行计算, 主题模型的联合 概率分布函数为:权 利 要 求 书 1/3 页
2
CN 115329038 A
2Gibbs抽样算法通过积分避开了实际待估计的参数, 转而对每个单词的主题进行采样,
每个单词的主题确定下来后, 参数可以在统计频次后计算出来, 故参数估计问题变为计算
单词序列下主题序列的条件概 率, 其公式如下:
其中, znm表示对文档n中第m个单词对应的主题变量; ‑nm表示不包括其中的第m项;
表
示k主题中出现词v的次数; βv是词v的Dirichlet先验;
表示文档n出现主题k的次数; αk是
主题k的Dirichlet先验; Gibbs采样的基本思想是固定某一维度znm, 然后通过其他维度z‑nm
的值来抽样该维度的值, 马尔科夫链通过转移概率矩阵可以收敛到稳定的概率分布; 当马
尔科夫链在 迭代阶段消除初始 参数的影响, 到达算法收敛时, 根据当前z的分布计算文档 在
主题上的分布 θ和主题在单词上的分布φ, 公式为:
其中, φk,v表示主题k中词v的概 率, θn,k表示文档n中主题k的概 率。
5.根据权利要求4所述的一种融合主题模型的图书馆平台语义检索方法, 其特征在于:
所述S4中, 单词 ‑主题频数分布表示为:
6.根据权利要求5所述的一种融合主题模型的图书馆平台语义检索方法, 其特征在于:
所述S5中, 当用户输入检索词v时, 得到分布
和
为了计算检索词与被检索文档中的关系, 通过下列公
式计算相似性:
权 利 要 求 书 2/3 页
3
CN 115329038 A
3
专利 一种融合主题模型的图书馆平台语义检索方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:22上传分享