专利 一种基于软件测试知识图谱的检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211063828.2 (22)申请日 2022.09.01 (71)申请人中国人民解放军国防科技大学地址 230037 安徽省合肥市黄山路46 0号 (72)发明人郭世杰　郭建蓬　孙丽萍　赵明　宋广宁　梁德军　陈璇　陆欢　汪雨辰　 (74)专利代理机构北京天达知识产权代理事务所有限公司 1 1386 专利代理师刘镜 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 40/216(2020.01) G06F 40/247(2020.01)G06F 40/289(2020.01) G06F 11/36(2006.01) (54)发明名称一种基于软件测试知识图谱的检索方法 (57)摘要本发明涉及一种基于软件测试知识图谱的检索方法，属于知识图谱技术领域，解决了现有软件测试文档复用度低且无法智能化检索的问题。包括对用户输入的检索条件进行分词处理得到检索词；基于多级词库中的停用词库和同义词库，去除检索词中的停用词并获得剩余检索词中的同义词，加入检索词；依次在软件测试知识图谱中对检索词进行关键词匹配，获取关键词及与关键词关联的知识实体和同义词；与关键词关联的知识实体作为检索结果；根据关键词和同义词所属词库权重和位置权重，以及同义词的相似度，汇总每个检索结果的得分；基于软件测试模板，按照得分从高到低显示出检索结果对应的软件测试知识。实现了测试知识的智能化检索，提高了数据的综合利用率。权利要求书3页说明书11页附图1页 CN 115422371 A 2022.12.02 CN 115422371 A 1.一种基于软件测试知识图谱的检索方法，其特征在于，包括如下步骤：对用户输入的检索条件进行分词处理，得到检索词；基于多级词库中的停用词库和同义词库，去除检索词中的停用词，并获得剩余检索词中的同义词，加入检索词中；依次在软件测试知识图谱中对检索词进行关键词匹配，获取关键词及与关键词关联的知识实体和同义词；所述与关键词关联的知识实体作为检索结果；根据关键词和同义词所属词库权重和位置权重，以及同义词的相似度，汇总每个检索结果的得分；基于软件测试模板，按照得分从高到低显示出检索结果对应的软件测试知识。 2.根据权利要求1所述的基于软件测试知识图谱的检索方法，其特征在于，所述检索方法还包括：当检索结果数量小于第一数量阈值，或者得分超过分值阈值的检索结果数量小于第二数量阈值时，根据分词结果进行全文检索，得到补充结果及其得分，加入检索结果中。 3.根据权利要求1或2所述的基于软件测试知识图谱的检索方法，其特征在于，所述根据关键词和同义词所属词库权重和位置权重，以及同义词的相似度，汇总每个检索结果的得分，是以每个检索结果为中心节点，以关键词和同义词作为中心节点的环绕节点，且以2 级路径为边界，计算出中心节点的环绕中心度，作为检索结果的得分。 4.根据权利要求3所述的基于软件测试知识图谱的检索方法，其特征在于，使用下式得到所述中心节点的环绕中心度： CC(Np)＝Dictp×Posp C′C(Nq)＝Dictq×Posq×simq 其中， g是与中心节点C存在直接关系的关键词数量， r是与C存在直接关系的关键词的同义词数量； Dictp是关键词Np所属词库的权重， Posp是关键词Np的位置权重， Dictq是同义词库的权重， Posq是同义词Nq的位置权重， simq为同义词的相似度。 5.根据权利要求3所述的基于软件测试知识图谱的检索方法，其特征在于，所述基于软件测试模板，按照得分从高到低显示出检索结果对应的软件测试知识，包括：根据检索结果，获取对应的软件测试模板；根据软件测试模板中绑定的字段，从检索结果对应的记录中获取字段内容，填充至软件测试模板中；如果所述字段内容中存在图片标识符，则从文件库中获取图片信息，插入到软件测试模板中，得到软件测试知识；以可视化化方式展示软件测试知识。 6.根据权利要求1所述的基于软件测试知识图谱的检索方法，其特征在于，所述软件测试知识图谱是基于软件测试模板，根据软件测试文档而构建，构建步骤如下：基于软件测试模板，对接收到的软件测试文档进行预处理和分词处理，根据分词结果更新多级词库中的新词库，以及根据分词结果和文档所属研究方向，更新各类研究方向的 IDF模型文件；解析预处理后的文档得到基础数据；基于基础数据，定时抽取知识实体及其属性，并建立知识实体及其属性以及知识实体间的关系；根据多级词库和各类研究方向的IDF模型文件，从知识实体的属性中提取关键词，建立权　利　要　求　书 1/3 页 2 CN 115422371 A 2关键词实体以及关键词实体与知识实体的关系，得到知识图谱。 7.根据权利要求6所述的基于软件测试知识图谱的检索方法，其特征在于，所述多级词库包括：一级标准词库、二级热词库、三级新词库、四级同义词库和五级停用词库；其中一级标准词库是通过分析领域标准和软件测试标准而预置；二级热词库是根据用户输入的检索条件，以及预置的次数阈值和时间阈值而动态更新；三级新词库是根据所有预处理成功的软件测试文档的分词结果而更新；四级同义词库和五级停用词库是根据用户维护而更新。 8.根据权利要求7所述的基于软件测试知识图谱的检索方法，其特征在于，所述根据分词结果和文档所属研究方向，更新各类研究方向的IDF模型文件：基于停用词库，对每类研究方向下每个文档的分词结果去除停用词；使用如下公式计算出每类研究方向中去除停用词后的分词结果中，每个词的逆文档频率，并将各个词和对应的逆文档频率组成各类研究方向的IDF模型文件：其中， idfi,j为第i个词在第j类研究方向中的逆文档频率； TCi,j为第i个词在第j类研究方向的文档中的词频； M Ci为第i个词在内置语料库中出现的次数。 9.根据权利要求8所述的基于软件测试知识图谱的检索方法，其特征在于，所述根据多级词库和各类研究方向的IDF模型文件，从知识实体的属性中提取关键词，包括：将每个知识实体的属性组成当前文本，进行分词处理，将得到的分词结果去除停用词后得到待提取词语；基于多级词库，识别出各个待提取词语所属词库，将属于一级标准词库或二级热词库的待提取词语，直接作为关键词，对剩余的每个待提取词语，执行如下步骤：根据剩余的每个待提取词语在当前文本中出现的次数和在所有预处理成功的软件测试文档中出现的次数，得到剩余的每个待提取词语的TF词频；根据知识实体所属的研究方向的IDF模型文件，获取剩余的每个待提取词语的IDF逆文档频率；识别剩余的每个待提取词语来源的属性及属性对应的权重，并根据剩余的每个待提取词语所属词库，得到剩余的每个待提取词语的位置权重和词库权重；根据TF词频、 IDF逆文档频率、位置权重和词库权重的乘积，得到剩余的每个待提取词语的得分；从高到低排序得分，根据预置个数，从剩余的待提取词语中提取得分靠前的预置个数的词语作为关键词。 10.根据权利要求6所述的基于软件测试知识图谱的检索方法，其特征在于，所述二级热词库是根据用户输入的检索条件，以及预置的次数阈值和时间阈值而动态更新，包括：对用户输入的检索条件进行分词处理，将得到的分词结果去除停用词，并移除已在任一词库中的词语；依次判断剩余词是否已存在于该用户的习惯词组缓存区中，如果已存在，则将该词的词频加1，若词频达到预置的次数阈值，则将该词加入二级热词库，并从该用户的习惯词组缓存区中移除该词；如果不存在，则将该词加入该用户的习惯词组缓存区中，更新时间；权　利　要　求　书 2/3 页 3 CN 115422371 A 3

专利 一种基于软件测试知识图谱的检索方法

专利一种基于软件测试知识图谱的检索方法