(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211066079.9
(22)申请日 2022.09.01
(71)申请人 中国人民解 放军国防科技大 学
地址 230037 安徽省合肥市黄山路46 0号
(72)发明人 郭世杰 郭建蓬 陈璇 宋广宁
赵明 梁德军 孙丽萍 汪雨辰
陆欢
(74)专利代理 机构 北京天达知识产权代理事务
所有限公司 1 1386
专利代理师 刘镜
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/247(2020.01)
G06F 40/279(2020.01)
G06F 40/289(2020.01)G06F 40/30(2020.01)
G06F 11/36(2006.01)
(54)发明名称
一种基于软件测试的知识图谱构建方法和
系统
(57)摘要
本发明涉及一种基于软件测试的知识图谱
构建方法和系统, 属于知识图谱技术领域, 解决
了现有技术中软件测试文档复用度低且无法智
能化存储的问题。 包括: 对接收到的软件测试文
档进行预处理和分词处理, 根据分词结果更新多
级词库中的新词库, 以及根据分词结果和文档所
属研究方向, 更新各类研究方向的IDF模型文件;
解析预处理后的文档得到基础数据; 基于基础数
据, 定时抽取知识实体及其属性, 并建立知识实
体及其属性以及知识实体间的关系; 根据多级词
库和各类研究方向的IDF模型文件, 从知识实体
的属性中提取关键词, 建立关键词实体以及关键
词实体与知识实体的关系, 得到知识图谱。 实现
了测试知识的智能化存储和检索, 提高了数据的
综合利用率。
权利要求书2页 说明书12页 附图1页
CN 115422372 A
2022.12.02
CN 115422372 A
1.一种基于软件测试的知识图谱构建方法, 其特 征在于, 包括如下步骤:
对接收到的软件测试文档进行预处理和分词处理, 根据分词结果更新多级词库中的新
词库, 以及根据分词结果和文档所属 研究方向, 更新各类研究方向的IDF模型文件; 解析预
处理后的文档得到基础数据;
基于基础数据, 定时抽取知识实体及其属性, 并建立知识实体及其属性以及知识实体
间的关系;
根据多级词库和各类研究方向的IDF模型文件, 从知识实体的属性中提取关键词, 建立
关键词实体以及关键词实体与知识实体的关系, 得到知识图谱。
2.根据权利要求1所述的基于软件测试的知识图谱构建方法, 其特征在于, 所述对接收
到的软件测试文档进行 预处理包括:
解析软件测试文档, 获取文档要素信息, 包括: 文档类型、 文档所属研究方向、 表格总行
数、 表格总列数和表格各单元格数据; 根据文档对应的软件测试模板, 依次校验表格总行数
与总列数是否与软件测试模板一致, 表格中各单元格数据是否满足软件测试模板中字段的
约束条件, 如果全部校验通过, 则预处理成功, 按文档所属研究方向进行分类存储; 否则记
录并反馈错 误日志, 预处 理失败。
3.根据权利要求2所述的基于软件测试的知识图谱构建方法, 其特征在于, 所述分词处
理是利用隐马尔科夫模型, 以字在词语中的位置作为状态, 基于多级词库生成初始概率矩
阵、 状态转移矩阵和发射概率矩阵; 将输入文本作为观测序列, 并利用维特比算法得到的最
优状态序列, 根据最优状态序列输出分词结果;
所述以字在词语 中的位置作为状态, 包括: 字在字数大于1的词语的起始位置B, 字在字
数大于1的词语的结束位置 E, 字在字数 大于1的词语的中间位置 M, 字为单字词S。
4.根据权利要求3所述的基于软件测试的知识图谱构建方法, 其特征在于, 所述对接收
到的软件测试文档进行分词处 理, 根据分词结果更新多 级词库中的新词库, 包括:
将所有预处理成功的文档转换为文本后, 作为输入文本进行分词处理, 得到分词结果,
将其中连续单字词SS对应的字组成新词, 如果所述新词不存在于多级词库中的新词库中,
则加入新词库。
5.根据权利要求1所述的基于软件测试的知识图谱构建方法, 其特征在于, 所述多级词
库包括: 一级标准词 库、 二级热词库、 三级新词 库、 四级同义词 库和五级停用词 库; 其中一级
标准词库是通过分析领域标准和软件测试标准而预置; 二级热词库是根据用户检索条件,
以及预置的次数阈值和时间阈值而动态更新; 三级新词库根据所有预 处理成功的文档的分
词结果而更新; 四级同义词库和五级停用词库是根据用户维护而更新。
6.根据权利要求5所述的基于软件测试的知识图谱构建方法, 其特征在于, 所述根据分
词结果和文档所属研究方向, 更新各类 研究方向的IDF模型文件, 包括:
基于停用词库, 对每 类研究方向下每 个文档的分词结果去除停用词;
使用如下公式计算出每类研究方向中去除停用词后的分词结果中, 每个词的逆文档频
率, 并将各个词和对应的逆文档频率组成各类 研究方向的IDF模型文件:
权 利 要 求 书 1/2 页
2
CN 115422372 A
2其中, idfi,j为第i个词在第j类研究方向中的逆文档频率; TCi,j为第i个词在第j类研究
方向的文档中的词频; M Ci为第i个词在内置语料库中出现的次数。
7.根据权利要求5所述的基于软件测试的知识图谱构建方法, 其特征在于, 所述根据多
级词库和各研究方向的IDF模型文件, 从知识实体的属性中提取关键词, 包括:
将知识实体的属性组成当前文本, 进行分词处理, 将得到的分词结果去停用词后得到
待提取词语;
基于多级词库, 识别出各个待提取词语所属词库, 将属于一级标准词库或二级热词库
的待提取词语, 直接作为关键词, 对剩余的每 个待提取词语, 执 行如下步骤:
根据剩余的每个待提取词语在当前文本中出现的次数和在所有预处理成功的文档中
出现的次数, 得到剩余的每 个待提取词语的TF词频;
根据知识 实体所属的研究方向的IDF模型文件, 获取剩余的每个待提取词语的IDF逆文
档频率;
识别剩余的每个待提取词语来源的属性及属性对应的权重, 并根据剩余的每个待提取
词语所属词库, 得到剩余的每 个待提取词语的位置 权重和词库权 重;
根据TF词频、 IDF逆文档频率、 位置权重和词库权重的乘积, 得到剩余的每个待提取词
语的得分;
从高到低排序得分, 根据预置个数, 从剩余的待提取词语中提取得分靠前的预置个数
的词语作为关键词。
8.根据权利要求3所述的基于软件测试的知识图谱构建方法, 其特征在于, 所述从知识
实体的属性中提取关键词还包括: 基于同义词 库, 获取提取的关键词的同义词, 建立同义词
实体, 以及关键词实体与同义词实体之间多对多的关系。
9.根据权利要求3所述的基于软件测试的知识图谱构建方法, 其特征在于, 所述二级热
词库是根据用户检索条件, 以及预置的次数阈值和时间阈值而动态更新, 包括:
对用户检索条件进行分词处理, 将得到的分词结果去 除停用词, 并移除已在任一词库
中的词语;
依次判断剩余词是否已存在于该用户的习惯词组缓存区中, 如果已存在, 则将该词的
词频加1, 若词频达到预置的次数阈值, 则将该词加入二级热词库, 并从该用户的习惯词组
缓存区中移除该词; 如果 不存在, 则将该词加入该用户的习惯词组缓存区中, 更新时间;
根据该用户的习惯词组缓存区中各词的更新时间, 与当前时间比较, 将超过预置的时
间阈值的词从该用户的习惯词组缓存区中移除。
10.一种基于软件测试的知识图谱构建系统, 其特 征在于, 包括:
分词处理模块, 用于对输入文本进行分词处 理, 得到分词结果;
文档预处理模块, 用于对接收到的软件测试文档进行预处理, 调用分词处理模块得到
分词结果; 根据分词结果更新多级词库中的新词库, 以及根据分词 结果和文档所属研究方
向, 更新各类 研究方向的IDF模型文件; 解析 预处理后的文档得到基础数据;
知识图谱构建模块, 用于基于基础数据, 定时抽取知识实体及其属性, 并建立知识实体
及其属性以及知识实体间的关系; 根据多级词 库和各类研究方向的IDF模型文件, 从知识实
体的属性中提取关键词, 建立关键词实体以及关键词实体与知识实体的关系, 得到知识图
谱。权 利 要 求 书 2/2 页
3
CN 115422372 A
3
专利 一种基于软件测试的知识图谱构建方法和系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:57上传分享