(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211063828.2
(22)申请日 2022.09.01
(71)申请人 中国人民解 放军国防科技大 学
地址 230037 安徽省合肥市黄山路46 0号
(72)发明人 郭世杰 郭建蓬 孙丽萍 赵明
宋广宁 梁德军 陈璇 陆欢
汪雨辰
(74)专利代理 机构 北京天达知识产权代理事务
所有限公司 1 1386
专利代理师 刘镜
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/33(2019.01)
G06F 40/216(2020.01)
G06F 40/247(2020.01)G06F 40/289(2020.01)
G06F 11/36(2006.01)
(54)发明名称
一种基于软件测试知识图谱的检索方法
(57)摘要
本发明涉及一种基于软件测试知识图谱的
检索方法, 属于知识图谱技术领域, 解决了现有
软件测试文档复用度低且无法智能化检索 的问
题。 包括对用户输入的检索条件进行分词处理得
到检索词; 基于多级词库中的停用词库和同义词
库, 去除检索词中的停用词并获得剩余检索词中
的同义词, 加入检索词; 依次在软件测试知识图
谱中对检索词进行关键词匹配, 获取关键词及与
关键词关联的知识实体和同义词; 与关键词关联
的知识实体作为检索结果; 根据关键词和同义词
所属词库权重和位置权重, 以及同义词的相似
度, 汇总每个检索结果的得分; 基于软件测试模
板, 按照得分从高到低显示出检索结果对应的软
件测试知识。 实现了测试知识的智能化检索, 提
高了数据的综合利用率。
权利要求书3页 说明书11页 附图1页
CN 115422371 A
2022.12.02
CN 115422371 A
1.一种基于软件测试知识图谱的检索方法, 其特 征在于, 包括如下步骤:
对用户输入的检索条件进行分词处理, 得到检索词; 基于多级词库中的停用词库和同
义词库, 去除检索词中的停用词, 并获得剩余检索词中的同义词, 加入检索词中;
依次在软件测试知识图谱中对检索词进行关键词匹配, 获取关键词及与关键词关联的
知识实体和同义词; 所述与关键词关联的知识实体作为检索结果;
根据关键词和同义词所属词库权重和位置权重, 以及同义词的相似度, 汇总每个检索
结果的得分; 基于软件测试模板, 按照得分从高到低显示出检索结果对应的软件测试知识。
2.根据权利要求1所述的基于软件测试知识图谱的检索方法, 其特征在于, 所述检索方
法还包括: 当检索结果数量小于第一数量阈值, 或者得分超过分值阈值的检索结果数量小
于第二数量阈值时, 根据分词结果进行全文检索, 得到补充结果及其得分, 加入检索结果
中。
3.根据权利要求1或2所述的基于软件测试知识图谱的检索方法, 其特征在于, 所述根
据关键词和同义词 所属词库权重和 位置权重, 以及同义词的相似度, 汇总每个检索结果的
得分, 是以每个检索结果为中心节点, 以关键词和同义词作为中心节点的环绕节点, 且以2
级路径为 边界, 计算出中心 节点的环绕 中心度, 作为检索结果的得分。
4.根据权利要求3所述的基于软件测试知识图谱的检索方法, 其特征在于, 使用下式得
到所述中心 节点的环绕 中心度:
CC(Np)=Dictp×Posp
C′C(Nq)=Dictq×Posq×simq
其中, g是与中心节点C存在直接关系的关键词数量, r是与C存在直接关系的关键词的
同义词数量; Dictp是关键词Np所属词库的权重, Posp是关键词Np的位置权重, Dictq是同义词
库的权重, Posq是同义词Nq的位置权重, simq为同义词的相似度。
5.根据权利要求3所述的基于软件测试知识图谱的检索方法, 其特征在于, 所述基于软
件测试模板, 按照得分从高到低显示出检索结果对应的软件测试知识, 包括:
根据检索结果, 获取对应的软件测试模板;
根据软件测试模板中绑定的字段, 从检索结果对应的记录中获取字段内容, 填充至软
件测试模板中; 如果所述字段内容中存在图片标识符, 则从文件库中获取图片信息, 插入到
软件测试模板中, 得到软件测试知识; 以可视化 化方式展示软件测试知识。
6.根据权利要求1所述的基于软件测试知识图谱的检索方法, 其特征在于, 所述软件测
试知识图谱是基于软件测试模板, 根据软件测试文档而构建, 构建步骤如下:
基于软件测试模板, 对接收到的软件测试文档进行预处理和分词处理, 根据分词结果
更新多级词库中的新词库, 以及根据分词 结果和文档所属研究方向, 更新各类研究方向的
IDF模型文件; 解析 预处理后的文档得到基础数据;
基于基础数据, 定时抽取知识实体及其属性, 并建立知识实体及其属性以及知识实体
间的关系;
根据多级词库和各类研究方向的IDF模型文件, 从知识实体的属性中提取关键词, 建立权 利 要 求 书 1/3 页
2
CN 115422371 A
2关键词实体以及关键词实体与知识实体的关系, 得到知识图谱。
7.根据权利要求6所述的基于软件测试知识图谱的检索方法, 其特征在于, 所述多级词
库包括: 一级标准词 库、 二级热词库、 三级新词 库、 四级同义词 库和五级停用词 库; 其中一级
标准词库是通过分析领域标准和软件测试标准而 预置; 二级 热词库是根据用户输入的检索
条件, 以及预置的次数阈值和时间阈值而动态更新; 三级新词库是根据所有预处理成功的
软件测试文档的分词结果而更新; 四级同义词库和五级停用词库是根据用户维护而更新。
8.根据权利要求7所述的基于软件测试知识图谱的检索方法, 其特征在于, 所述根据分
词结果和文档所属研究方向, 更新各类 研究方向的IDF模型文件:
基于停用词库, 对每 类研究方向下每 个文档的分词结果去除停用词;
使用如下公式计算出每类研究方向中去除停用词后的分词结果中, 每个词的逆文档频
率, 并将各个词和对应的逆文档频率组成各类 研究方向的IDF模型文件:
其中, idfi,j为第i个词在第j类研究方向中的逆文档频率; TCi,j为第i个词在第j类研究
方向的文档中的词频; M Ci为第i个词在内置语料库中出现的次数。
9.根据权利要求8所述的基于软件测试知识图谱的检索方法, 其特征在于, 所述根据多
级词库和各类 研究方向的IDF模型文件, 从知识实体的属性中提取关键词, 包括:
将每个知识实体的属性组成当前文本, 进行分词处理, 将得到的分词结果去 除停用词
后得到待提取词语;
基于多级词库, 识别出各个待提取词语所属词库, 将属于一级标准词库或二级热词库
的待提取词语, 直接作为关键词, 对剩余的每 个待提取词语, 执 行如下步骤:
根据剩余的每个待提取词语在当前文本中出现的次数和在所有预处理成功的软件测
试文档中出现的次数, 得到剩余的每 个待提取词语的TF词频;
根据知识 实体所属的研究方向的IDF模型文件, 获取剩余的每个待提取词语的IDF逆文
档频率;
识别剩余的每个待提取词语来源的属性及属性对应的权重, 并根据剩余的每个待提取
词语所属词库, 得到剩余的每 个待提取词语的位置 权重和词库权 重;
根据TF词频、 IDF逆文档频率、 位置权重和词库权重的乘积, 得到剩余的每个待提取词
语的得分;
从高到低排序得分, 根据预置个数, 从剩余的待提取词语中提取得分靠前的预置个数
的词语作为关键词。
10.根据权利要求6所述的基于软件测试知识图谱的检索方法, 其特征在于, 所述二级
热词库是根据用户输入的检索条件, 以及预置的次数阈值和时间阈值而动态更新, 包括:
对用户输入的检索条件进行分词处理, 将得到的分词结果去 除停用词, 并移除已在任
一词库中的词语;
依次判断剩余词是否已存在于该用户的习惯词组缓存区中, 如果已存在, 则将该词的
词频加1, 若词频达到预置的次数阈值, 则将该词加入二级热词库, 并从该用户的习惯词组
缓存区中移除该词; 如果 不存在, 则将该词加入该用户的习惯词组缓存区中, 更新时间;权 利 要 求 书 2/3 页
3
CN 115422371 A
3
专利 一种基于软件测试知识图谱的检索方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:39:15上传分享