专利 一种基于软件测试的知识图谱构建方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211066079.9 (22)申请日 2022.09.01 (71)申请人中国人民解放军国防科技大学地址 230037 安徽省合肥市黄山路46 0号 (72)发明人郭世杰　郭建蓬　陈璇　宋广宁　赵明　梁德军　孙丽萍　汪雨辰　陆欢　 (74)专利代理机构北京天达知识产权代理事务所有限公司 1 1386 专利代理师刘镜 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/247(2020.01) G06F 40/279(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06F 11/36(2006.01) (54)发明名称一种基于软件测试的知识图谱构建方法和系统 (57)摘要本发明涉及一种基于软件测试的知识图谱构建方法和系统，属于知识图谱技术领域，解决了现有技术中软件测试文档复用度低且无法智能化存储的问题。包括：对接收到的软件测试文档进行预处理和分词处理，根据分词结果更新多级词库中的新词库，以及根据分词结果和文档所属研究方向，更新各类研究方向的IDF模型文件；解析预处理后的文档得到基础数据；基于基础数据，定时抽取知识实体及其属性，并建立知识实体及其属性以及知识实体间的关系；根据多级词库和各类研究方向的IDF模型文件，从知识实体的属性中提取关键词，建立关键词实体以及关键词实体与知识实体的关系，得到知识图谱。实现了测试知识的智能化存储和检索，提高了数据的综合利用率。权利要求书2页说明书12页附图1页 CN 115422372 A 2022.12.02 CN 115422372 A 1.一种基于软件测试的知识图谱构建方法，其特征在于，包括如下步骤：对接收到的软件测试文档进行预处理和分词处理，根据分词结果更新多级词库中的新词库，以及根据分词结果和文档所属研究方向，更新各类研究方向的IDF模型文件；解析预处理后的文档得到基础数据；基于基础数据，定时抽取知识实体及其属性，并建立知识实体及其属性以及知识实体间的关系；根据多级词库和各类研究方向的IDF模型文件，从知识实体的属性中提取关键词，建立关键词实体以及关键词实体与知识实体的关系，得到知识图谱。 2.根据权利要求1所述的基于软件测试的知识图谱构建方法，其特征在于，所述对接收到的软件测试文档进行预处理包括：解析软件测试文档，获取文档要素信息，包括：文档类型、文档所属研究方向、表格总行数、表格总列数和表格各单元格数据；根据文档对应的软件测试模板，依次校验表格总行数与总列数是否与软件测试模板一致，表格中各单元格数据是否满足软件测试模板中字段的约束条件，如果全部校验通过，则预处理成功，按文档所属研究方向进行分类存储；否则记录并反馈错误日志，预处理失败。 3.根据权利要求2所述的基于软件测试的知识图谱构建方法，其特征在于，所述分词处理是利用隐马尔科夫模型，以字在词语中的位置作为状态，基于多级词库生成初始概率矩阵、状态转移矩阵和发射概率矩阵；将输入文本作为观测序列，并利用维特比算法得到的最优状态序列，根据最优状态序列输出分词结果；所述以字在词语中的位置作为状态，包括：字在字数大于1的词语的起始位置B，字在字数大于1的词语的结束位置 E，字在字数大于1的词语的中间位置 M，字为单字词S。 4.根据权利要求3所述的基于软件测试的知识图谱构建方法，其特征在于，所述对接收到的软件测试文档进行分词处理，根据分词结果更新多级词库中的新词库，包括：将所有预处理成功的文档转换为文本后，作为输入文本进行分词处理，得到分词结果，将其中连续单字词SS对应的字组成新词，如果所述新词不存在于多级词库中的新词库中，则加入新词库。 5.根据权利要求1所述的基于软件测试的知识图谱构建方法，其特征在于，所述多级词库包括：一级标准词库、二级热词库、三级新词库、四级同义词库和五级停用词库；其中一级标准词库是通过分析领域标准和软件测试标准而预置；二级热词库是根据用户检索条件，以及预置的次数阈值和时间阈值而动态更新；三级新词库根据所有预处理成功的文档的分词结果而更新；四级同义词库和五级停用词库是根据用户维护而更新。 6.根据权利要求5所述的基于软件测试的知识图谱构建方法，其特征在于，所述根据分词结果和文档所属研究方向，更新各类研究方向的IDF模型文件，包括：基于停用词库，对每类研究方向下每个文档的分词结果去除停用词；使用如下公式计算出每类研究方向中去除停用词后的分词结果中，每个词的逆文档频率，并将各个词和对应的逆文档频率组成各类研究方向的IDF模型文件：权　利　要　求　书 1/2 页 2 CN 115422372 A 2其中， idfi,j为第i个词在第j类研究方向中的逆文档频率； TCi,j为第i个词在第j类研究方向的文档中的词频； M Ci为第i个词在内置语料库中出现的次数。 7.根据权利要求5所述的基于软件测试的知识图谱构建方法，其特征在于，所述根据多级词库和各研究方向的IDF模型文件，从知识实体的属性中提取关键词，包括：将知识实体的属性组成当前文本，进行分词处理，将得到的分词结果去停用词后得到待提取词语；基于多级词库，识别出各个待提取词语所属词库，将属于一级标准词库或二级热词库的待提取词语，直接作为关键词，对剩余的每个待提取词语，执行如下步骤：根据剩余的每个待提取词语在当前文本中出现的次数和在所有预处理成功的文档中出现的次数，得到剩余的每个待提取词语的TF词频；根据知识实体所属的研究方向的IDF模型文件，获取剩余的每个待提取词语的IDF逆文档频率；识别剩余的每个待提取词语来源的属性及属性对应的权重，并根据剩余的每个待提取词语所属词库，得到剩余的每个待提取词语的位置权重和词库权重；根据TF词频、 IDF逆文档频率、位置权重和词库权重的乘积，得到剩余的每个待提取词语的得分；从高到低排序得分，根据预置个数，从剩余的待提取词语中提取得分靠前的预置个数的词语作为关键词。 8.根据权利要求3所述的基于软件测试的知识图谱构建方法，其特征在于，所述从知识实体的属性中提取关键词还包括：基于同义词库，获取提取的关键词的同义词，建立同义词实体，以及关键词实体与同义词实体之间多对多的关系。 9.根据权利要求3所述的基于软件测试的知识图谱构建方法，其特征在于，所述二级热词库是根据用户检索条件，以及预置的次数阈值和时间阈值而动态更新，包括：对用户检索条件进行分词处理，将得到的分词结果去除停用词，并移除已在任一词库中的词语；依次判断剩余词是否已存在于该用户的习惯词组缓存区中，如果已存在，则将该词的词频加1，若词频达到预置的次数阈值，则将该词加入二级热词库，并从该用户的习惯词组缓存区中移除该词；如果不存在，则将该词加入该用户的习惯词组缓存区中，更新时间；根据该用户的习惯词组缓存区中各词的更新时间，与当前时间比较，将超过预置的时间阈值的词从该用户的习惯词组缓存区中移除。 10.一种基于软件测试的知识图谱构建系统，其特征在于，包括：分词处理模块，用于对输入文本进行分词处理，得到分词结果；文档预处理模块，用于对接收到的软件测试文档进行预处理，调用分词处理模块得到分词结果；根据分词结果更新多级词库中的新词库，以及根据分词结果和文档所属研究方向，更新各类研究方向的IDF模型文件；解析预处理后的文档得到基础数据；知识图谱构建模块，用于基于基础数据，定时抽取知识实体及其属性，并建立知识实体及其属性以及知识实体间的关系；根据多级词库和各类研究方向的IDF模型文件，从知识实体的属性中提取关键词，建立关键词实体以及关键词实体与知识实体的关系，得到知识图谱。权　利　要　求　书 2/2 页 3 CN 115422372 A 3

专利 一种基于软件测试的知识图谱构建方法和系统

专利一种基于软件测试的知识图谱构建方法和系统