(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210833092.6
(22)申请日 2022.07.14
(71)申请人 上海工程 技术大学
地址 201620 上海市松江区龙腾路3 33号
(72)发明人 江开忠 王国强
(74)专利代理 机构 上海唯智赢专利代理事务所
(普通合伙) 31293
专利代理师 姜晓艳
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06Q 40/00(2012.01)
(54)发明名称
一种基于自然语言处理的金融风险预警方
法
(57)摘要
本发明属于金融信用服务的技术高领域, 公
开了一种基于自然语言处理的金融风险预警方
法, 包括步骤一、 搜集金融语料集, 建立正、 负面
词典和金融主题词典; 步骤二、 搜集客户所关注
的金融数据, 以句子为单位, 提取包含金融主题
词典中词的句子, 组成集合S(Concern); 步骤三、 对
于集合S(Concern)中的每一个句子, 利用相似性替
换法, 将当中的词对应替换为正、 负面词典中的
正面词、 负面词, 计算替换后的各个句子的情感
极性, 然后将情感极性为负面的句子筛选出来,
组成集合S(neg); 步骤四、 利用情感波谷搜索法遍
历集合S(neg)中的每个句子, 找出处于最深情感
波谷处的句子集并展示给客户, 以帮助客户快速
找到潜在风险, 有效实施风险管控。
权利要求书2页 说明书8页 附图1页
CN 115391498 A
2022.11.25
CN 115391498 A
1.一种基于自然语言处 理的金融风险预警方法, 其特 征在于包括以下步骤:
步骤一、 搜集金融语料集, 建立 正、 负面词典W±=W+∪W‑和金融主题词典W(finterm);
步骤二、 搜集客户所关注的金融数据, 以句子为单位, 提取包含金融主题词典W(finterm)
中词的句子, 组成集 合S(Concern);
步骤三、 对于集合S(Concern)中的每一个句子, 利用相似性替换法, 将当中的词对应替换
为正、 负面词典中的正面词、 负面词, 计算替换后的各个句 子的情感极性, 然后将情感极性
为负面的句子 筛选出来, 组成集 合S(neg);
步骤四、 利用情感波谷搜索法遍历集合S(neg)中的每个句子, 找出处于最深情感波谷处
的句子集并展示给客户, 以帮助客户快速找到潜在风险, 有效实施风险管控。
2.根据权利要求1所述的基于自然语言处理 的金融风险预警方法, 其特征在于: 在所述
步骤一中, 基于正、 负面词典中的各个正面词、 负面词在金融语料集出现的总 频数, 标注金
融预料集中各个句 子的极性, 再计算各个正面词、 负面词的极性值, 从而重新划分正、 负面
词典中的正 面词、 负面词。
3.根据权利要求2所述的基于自然语言处理的金融风险预警方法, 其特征在于重新划
分正面词、 负面词的方法包括以下步骤:
记所述金融语料集中所有文档的集合为
所有句子的集合
正面词词典
负面词词典
步骤Ⅰ、 分别统计正面词、 负面词在语料集中出现的总频次f(posw)、 f(negw), 计算总频次比
步骤Ⅱ、 标注金融语料集中各个句子的极性
分别统计正面词和负面词在句子si中出现的词频总数,记为fi(posw),fi(negw), 其中i=1,
2...N(s);
若fi(posw)>fi(negw)·λ,则标注句子si的极性偏正 面, 赋予标签Li=0;
若fi(posw)<fi(negw)·λ,则标注句子si的极性偏 负面, 赋予标签记Li=1;
若fi(posw)=fi(negw)·λ,则不对句子si标注, 即表明句子中性;
步骤Ⅲ、 利用如下 方程式, 计算各个正 面词、 负面词的极性 值
其中, w∈W±, f(0)(w)表示词w在所有标签为0的句子中出现的词频总和, f(1)(w)表示词w
在所有标签为1的句子中出现的词频总和, 通常负面词有:
x=1,2...N1, 正
面词有:
y=1,2...N2;
步骤Ⅳ、 重新划分正 面词、 负面词
若某个正 面词的极性 值小于零, 则将该正 面词调整为负面词;
若某个负面词的极性 值大于零, 则将该负面词 调整为正面词。
4.根据权利要求3所述的基于自然语言处理 的金融风险预警方法, 其特征在于: 在所述权 利 要 求 书 1/2 页
2
CN 115391498 A
2步骤三中相似性 替换方法设置为
记集合S(Concern)中任一个句子为s={w1,w2,…wt…,wk}, wt表示句子s中的任一词, 给定
参数δ,
若wt∈W±, wt不替换;
若
将wt替换为下列词:
若解不存在, 则将wt从句子s
={w1,w2,…wt…,wk}中删除。
5.根据权利要求4所述的基于自然语言处理 的金融风险预警方法, 其特征在于: 在所述
步骤三中, 利用如下 方程式, 计算 替换后的集 合S(Concern)中各个句子的情感极性
其中, p(wt)表示替换后的词wt的极性值, 由权利要求3求得,
ρ(d)(wt)=TF(wt)·IDF(wt)表示替换后的词wt基于金融语料集中文档的TF ‑IDF, ρ(s)(wt)=
TF(wt)·ISF(wt)表示替换后的词wt基于金融预 料集中句子的TF ‑ISF;
通常, 句子s的情感极性 为负面有: p(s)<0, 句子s的情感极性 为正面有: p(s)>0 。
S(Concern)中所有极性 值为负(p(s)<0)的句子构成集 合S(neg)。
6.根据权利要求5所述的基于自然语言处理的金融风险预警方法, 其特征在于所述情
感波谷搜索法包括以下步骤:
步骤ⅰ、 利用如下方程式, 计算各个句子s的中心, 再计算任意两个句子 中心之间的欧式
距离, 进而获得欧式距离标准差σ(neg);
其中, 粗黑体wt表示基于金融语料集, 利用word2vec算法, 计算句子s任一词wt在向量空
间所对应的点或向量;
步骤ⅱ、 以距离标准差σ(neg)作为半径, 以每个句子的中心作为圆心, 计算每个圆内所包
含句子的情感极性之和, 找出情感极性之和最小的句子集即处于最深情感波谷处的句子展
示给客户。
7.一种计算机可读存储介质, 所述计算机可读存储介质用于存储计算机程序, 其特征
在于: 所述计算机程序被处理器执行时, 使 得电子设备执行如权利要求 1‑6之一所述的基于
自然语言处 理的金融风险预警方法。
8.一种电子设备, 包括存储器、 处理器以及存储在存储器 内部的计算机程序, 其特征在
于: 所述处理器执行计算机程序时, 使得电子 设备执行如权利要求 1‑6之一所述的基于自然
语言处理的金融风险预警方法。权 利 要 求 书 2/2 页
3
CN 115391498 A
3
专利 一种基于自然语言处理的金融风险预警方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:54:25上传分享