(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211014961.9
(22)申请日 2022.08.23
(71)申请人 杨越
地址 525000 广东省茂名市茂南区油城 七
路83号
(72)发明人 杨越 陈锡
(74)专利代理 机构 深圳市六加知识产权代理有
限公司 4 4372
专利代理师 刘慧
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/216(2020.01)
G06F 40/151(2020.01)
G06F 16/35(2019.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于大数据的权重自适应方法及大数
据系统
(57)摘要
本申请涉及大数据技术领域, 提供了一种基
于大数据的权重自适应方法及大数据系统。 所述
方法包括: 获取动态重要样本库, 基于所述动态
重要样本库确定待识别文本对应的关键词集合
及所述关键词集合中每个词语的初始权重; 分别
提取所述关键词集合中的名词和动词, 得到名词
词组和动词词组; 将所述名词词组中各个词语依
次与所述动词词组中每个词语组合, 得到多个词
语对; 根据所述动态重要样本库及所述初始权
重, 重构具有突变关系的词语对的新权重, 基于
所述新权重识别所述待识别文本的重要性。 本申
请提高了数据重要性识别准确度。
权利要求书2页 说明书11页 附图2页
CN 115438662 A
2022.12.06
CN 115438662 A
1.一种基于大 数据的权 重自适应方法, 其特 征在于, 所述方法包括:
获取动态重要样本库, 基于所述动态重要样本库确定待识别文本对应的关键词集合及
所述关键词集 合中每个词语的初始权 重;
分别提取 所述关键词集 合中的名词和动词, 得到名词 词组和动词 词组;
将所述名词 词组中各个词语依次与所述动词 词组中每 个词语组合, 得到多个词语对;
根据所述动态重要样本库及所述初始权重, 重构具有突变关系的词语对的新权重, 基
于所述新权重识别所述待识别文本的重要性。
2.如权利要求1所述的方法, 其特征在于, 所述根据 所述动态重要样本库及所述初始权
重, 重构具有突变关系的词语对的新权 重, 包括:
基于所述动态重要样本库, 计算每 个词语对的两个词语之间的关联值;
基于所述关联值判断每 个词语对是否具有突变关系;
基于所述关联值及 初始权重, 重构具有突变关系的词语对的新权 重。
3.如权利要求1所述的方法, 其特征在于, 所述分别提取所述关键词集合中的名词和动
词, 得到名词 词组和动词 词组, 包括:
将所述关键词集合输入词性识别模型的词向量转换网络执行词向量转换处理, 得到所
述关键词集 合中每个词语的词向量;
将所述待识别文本输入所述词性识别模型的文本向量提取网络执行文本向量提取处
理, 得到所述待识别文本对应的文本向量;
拼接所述词向量及文本向量, 得到所述关键词集 合中每个词语的特 征向量;
将所述特征向量输入所述词性识别模型的词性分类网络, 得到所述关键词集合中每个
词语的词性分类结果;
基于所述词性分类结果提取所述关键词集合中的名词和动词, 得到名词词组和动词词
组。
4.如权利要求1所述的方法, 其特征在于, 所述基于所述动态重要样本库确定待识别文
本对应的关键词集 合及所述关键词集 合中每个词语的初始权 重, 包括:
对所述待识别文本执 行分词处 理, 得到词语集 合;
将所述词语集合中每个词语与所述动态重要样本库进行匹配, 得到关键词集合及所述
关键词集 合中每个词语的初始权 重。
5.如权利要求4所述的方法, 其特征在于, 所述将所述词语集合中每个词语与 所述动态
重要样本库进行匹配, 得到关键词集 合及所述关键词集 合中每个词语的初始权 重, 包括:
计算所述词语集 合中每个词语在所述待识别文本中的词频;
计算所述词语集 合中每个词语与所述动态重要样本库的相关度值;
基于所述词频及所述相关度值计算所述词语集 合中每个词语的重要度值;
确定所述待识别文本中待提取的关键词数量;
按照重要度值从高到底的顺序, 从所述词语集合中筛选所述待提取的关键词数量的词
语放入所述待识别文本对应的关键词集 合中;
将所述关键词集 合中每个词语的重要度值作为 其初始权 重。
6.如权利要求5所述的方法, 其特征在于, 所述确定所述待识别文本 中待提取的关键词
数量, 包括:权 利 要 求 书 1/2 页
2
CN 115438662 A
2计算所述待识别文本的语义丰富度;
获取预先确定的语义丰富度与关键词数量之间的映射关系, 基于所述映射关系及所述
语义丰富度确定所述待识别文本中待提取的关键词数量。
7.如权利要求6所述的方法, 其特征在于, 所述计算所述待识别文本的语义丰富度, 包
括:
剔除所述词语集 合中预设类型的词语, 得到所述待识别文本对应的重要词语集 合;
根据所述重要词语集 合中词语的数量及长度计算所述待识别文本的语义丰富度。
8.一种基于大 数据的权 重自适应系统, 其特 征在于, 所述系统包括:
获取模块, 用于获取动态重要样本库, 基于所述动态重要样本库确定待识别文本对应
的关键词集 合及所述关键词集 合中每个词语的初始权 重;
提取模块, 用于分别提取 所述关键词集 合中的名词和动词, 得到名词 词组和动词 词组;
组合模块, 用于将所述名词词组中各个词语依次与所述动词词组中每个词语组合, 得
到多个词语对;
重构模块, 用于根据所述动态重要样本库及所述初始权重, 重构具有突变关系的词语
对的新权 重, 基于所述 新权重识别所述待识别文本的重要性。
9.一种系统, 其特 征在于, 所述系统包括:
至少一个处 理器; 以及,
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的基于大数据的权重自适应程序, 所
述基于大数据的权重自适应程序被所述至少一个处理器执行, 以使所述至少一个处理器能
够执行如权利要求1至7中任一项所述的基于大 数据的权 重自适应方法的步骤。权 利 要 求 书 2/2 页
3
CN 115438662 A
3
专利 一种基于大数据的权重自适应方法及大数据系统
安全报告 >
其他 >
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-03-03 20:14:05上传分享