专利 一种基于大数据的权重自适应方法及大数据系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211014961.9 (22)申请日 2022.08.23 (71)申请人杨越地址 525000 广东省茂名市茂南区油城七路83号 (72)发明人杨越　陈锡　 (74)专利代理机构深圳市六加知识产权代理有限公司 4 4372 专利代理师刘慧 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/151(2020.01) G06F 16/35(2019.01) G06F 40/30(2020.01) (54)发明名称一种基于大数据的权重自适应方法及大数据系统 (57)摘要本申请涉及大数据技术领域，提供了一种基于大数据的权重自适应方法及大数据系统。所述方法包括：获取动态重要样本库，基于所述动态重要样本库确定待识别文本对应的关键词集合及所述关键词集合中每个词语的初始权重；分别提取所述关键词集合中的名词和动词，得到名词词组和动词词组；将所述名词词组中各个词语依次与所述动词词组中每个词语组合，得到多个词语对；根据所述动态重要样本库及所述初始权重，重构具有突变关系的词语对的新权重，基于所述新权重识别所述待识别文本的重要性。本申请提高了数据重要性识别准确度。权利要求书2页说明书11页附图2页 CN 115438662 A 2022.12.06 CN 115438662 A 1.一种基于大数据的权重自适应方法，其特征在于，所述方法包括：获取动态重要样本库，基于所述动态重要样本库确定待识别文本对应的关键词集合及所述关键词集合中每个词语的初始权重；分别提取所述关键词集合中的名词和动词，得到名词词组和动词词组；将所述名词词组中各个词语依次与所述动词词组中每个词语组合，得到多个词语对；根据所述动态重要样本库及所述初始权重，重构具有突变关系的词语对的新权重，基于所述新权重识别所述待识别文本的重要性。 2.如权利要求1所述的方法，其特征在于，所述根据所述动态重要样本库及所述初始权重，重构具有突变关系的词语对的新权重，包括：基于所述动态重要样本库，计算每个词语对的两个词语之间的关联值；基于所述关联值判断每个词语对是否具有突变关系；基于所述关联值及初始权重，重构具有突变关系的词语对的新权重。 3.如权利要求1所述的方法，其特征在于，所述分别提取所述关键词集合中的名词和动词，得到名词词组和动词词组，包括：将所述关键词集合输入词性识别模型的词向量转换网络执行词向量转换处理，得到所述关键词集合中每个词语的词向量；将所述待识别文本输入所述词性识别模型的文本向量提取网络执行文本向量提取处理，得到所述待识别文本对应的文本向量；拼接所述词向量及文本向量，得到所述关键词集合中每个词语的特征向量；将所述特征向量输入所述词性识别模型的词性分类网络，得到所述关键词集合中每个词语的词性分类结果；基于所述词性分类结果提取所述关键词集合中的名词和动词，得到名词词组和动词词组。 4.如权利要求1所述的方法，其特征在于，所述基于所述动态重要样本库确定待识别文本对应的关键词集合及所述关键词集合中每个词语的初始权重，包括：对所述待识别文本执行分词处理，得到词语集合；将所述词语集合中每个词语与所述动态重要样本库进行匹配，得到关键词集合及所述关键词集合中每个词语的初始权重。 5.如权利要求4所述的方法，其特征在于，所述将所述词语集合中每个词语与所述动态重要样本库进行匹配，得到关键词集合及所述关键词集合中每个词语的初始权重，包括：计算所述词语集合中每个词语在所述待识别文本中的词频；计算所述词语集合中每个词语与所述动态重要样本库的相关度值；基于所述词频及所述相关度值计算所述词语集合中每个词语的重要度值；确定所述待识别文本中待提取的关键词数量；按照重要度值从高到底的顺序，从所述词语集合中筛选所述待提取的关键词数量的词语放入所述待识别文本对应的关键词集合中；将所述关键词集合中每个词语的重要度值作为其初始权重。 6.如权利要求5所述的方法，其特征在于，所述确定所述待识别文本中待提取的关键词数量，包括：权　利　要　求　书 1/2 页 2 CN 115438662 A 2计算所述待识别文本的语义丰富度；获取预先确定的语义丰富度与关键词数量之间的映射关系，基于所述映射关系及所述语义丰富度确定所述待识别文本中待提取的关键词数量。 7.如权利要求6所述的方法，其特征在于，所述计算所述待识别文本的语义丰富度，包括：剔除所述词语集合中预设类型的词语，得到所述待识别文本对应的重要词语集合；根据所述重要词语集合中词语的数量及长度计算所述待识别文本的语义丰富度。 8.一种基于大数据的权重自适应系统，其特征在于，所述系统包括：获取模块，用于获取动态重要样本库，基于所述动态重要样本库确定待识别文本对应的关键词集合及所述关键词集合中每个词语的初始权重；提取模块，用于分别提取所述关键词集合中的名词和动词，得到名词词组和动词词组；组合模块，用于将所述名词词组中各个词语依次与所述动词词组中每个词语组合，得到多个词语对；重构模块，用于根据所述动态重要样本库及所述初始权重，重构具有突变关系的词语对的新权重，基于所述新权重识别所述待识别文本的重要性。 9.一种系统，其特征在于，所述系统包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的基于大数据的权重自适应程序，所述基于大数据的权重自适应程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的基于大数据的权重自适应方法的步骤。权　利　要　求　书 2/2 页 3 CN 115438662 A 3

专利 一种基于大数据的权重自适应方法及大数据系统

专利一种基于大数据的权重自适应方法及大数据系统