(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211065582.2
(22)申请日 2022.09.01
(71)申请人 广东工业大 学
地址 510000 广东省广州市东 风东路729号
(72)发明人 陈平华 匡翊政
(74)专利代理 机构 长沙轩荣专利代理有限公司
43235
专利代理师 张慧敏
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 16/36(2019.01)
G06Q 40/00(2012.01)
(54)发明名称
一种互联网金融业 务的实体实时识别方法
(57)摘要
本发明公开了一种互联网金融业务的实体
实时识别的方法, 步骤包括: 步骤1): 对输入的金
融文本数据X进行数据预处理, 使用BI O标注体系
对数据集进行标注; 步骤2): 用五折切割来切分
训练集, 使用ALBERT ‑CRF模型对处理过的文本进
行实体识别得到实体集合, 接着用频繁模式挖掘
对数据进行后处理, 由此得到金融文本对应的实
体集合; 步骤3): 通过得到的实体和关系构建金
融领域知识图谱, 接着将上述步骤进行综合, 通
过Micro‑Averaging来计算评测分数, 最终得到
金融文本对应的最优实体集合。 本发 明重点强调
对于互联网中实时的金融文本数据, 可以实时识
别出金融文本中的实体, 提升了金融实体识别的
实时性, 从而更好的为金融领域相关机构和个人
提供信息支撑 。
权利要求书3页 说明书6页 附图3页
CN 115392251 A
2022.11.25
CN 115392251 A
1.一种互联网金融业 务的实体实时识别的方法, 其特 征在于, 包 含以下步骤:
步骤1, 数据 预处理模块中, 对输入的金融文本数据X进行格 式判断, 格 式不正确则进行
数据预处理, 包括数据清洗和数据划分, 然后定义多个实体类型标签, 使用BIO标注体系对
数据集进行 标注;
步骤2, 实体集合提取模块中, 用五折切割来切分训练集, 保证模型泛化性, 再使用
ALBERT‑CRF模型对文本进行实时的实体识别得到实体集合, 对 上一步骤得到的实体集合进
行后处理, 采用频繁模式挖掘可能遗漏的实体, 并过滤掉误识别的实体, 由此得到 当前训练
轮次金融文本对应的最优实体;
步骤3, 实时处理模块中, 通过上一步骤得到的实体和关系从而构建金融领域知识图
谱, 再用ALBERT ‑CRF模型针对 数据集进行三轮fine ‑tunning, 最后引用两种参数减少技术,
提升实体识别的实时性。
2.如权利要求1所述的一种互联网金融业务的实体实时识别的方法, 其特征在于, 所述
步骤1具体包括:
步骤1.1, 针对金融文本常出现的噪音及错误标签等问题, 本发明使用正则表达 式定位
噪声与错 误标签数据;
步骤1.2, 找出数据集 中所有的非中文、 非英文和非数字符号, 比如一些HTML标签、 特殊
符号、 无意义字符等, 利用正则表达式进 行过滤清除实现数据 清洗, 对文本中出现的错误标
签进行定位并针对互联网金融文本进行 数据清洗;
步骤1.3, 定义多个实体类型标签, 比如 “FIN”金融实体, “LOC”地名实体, “ORG”机构实
体,“PER”人名实体, “O”非命名实体;
步骤1.4, 采用BIO标注体系, 将标签细分为 “B‑LOC”、“I‑LOC”、“B‑ORG”、“I‑ORG”、“B‑
PER”、“I‑PER”、“B‑FIN”、“I‑FIN”、“O”;
步骤1.5, 在句子长度超过510个的文本或者无结尾标点的文本的后面直接增加句号,
然后以逗号, 句号, 感叹号, 问号的优先级将长文本分割成多个独立短文本, 同时还要对切
割索引进行保存, 方便之后拼接 。
3.如权利要求1所述的一种互联网金融业务的实体实时识别的方法, 其特征在于, 所述
步骤2具体包括:
步骤2.1, 用五折切割来切分训练集, 分成训练集和验证集, 多维度利用训练集信息, 保
证模型的泛化 性;
步骤2.2, 使用ALBERT预训练语言模型对待 处理金融领域文本进行编码完成词嵌入, 获
取动态词向量;
步骤2.3, 将上一 步的动态词向量输入至 CRF层并解码,
设两组随机变量X=(x1,x2,...,xn)和Y=(y1,y2,...,yn),
线性链式条件随机场定义如下: p(yi|X,y1,y2,...,yi‑1,yy+1,...,yn)=p(yi|X,yi‑1,
yi+1),i=1,2,...,n
其中: X为观察状态, Y为隐藏状态;
使用以下CRF的判别计算公式, 可以得到 本发明实体识别模型的预测标签序列的分值:权 利 要 求 书 1/3 页
2
CN 115392251 A
2其中: mask(X,y)表示预测标签序列y的分值, P表示从ALBERT层 得到的分数矩阵, T表示
CRF学习得到的转移矩阵, p(y|X)表示输入序列与标签序列的对应概率, YX表示金融文本数
据序列X对应的所有可能的字符序列;
步骤2.4, 进一步地, 根据所属分数最 高的标签序列, 得到当前语句文本对应的实体, 使
用以下公式来计算 最大化正确标签序列的对数概 率:
其中, X代表输入的金融文本
数据序列X=(x0,x1,...,xn), y代表预测的字符标签序列;
步骤2.5, 再使用以下公式, 解码得到最大值的预测输出序列: ymax=argmax(mask(X,
y′)), 接着结合预测的标签序列和实体标注信息, 完成实体边界及分类识别;
步骤2.6, 再对得到的实体集合进行后处理, 采用频繁模式挖掘遗漏的实体并过滤误判
的实体, 由此提取到金融文本对应的实体集 合。
4.如权利要求1所述的一种互联网金融业务的实体实时识别的方法, 其特征在于, 所述
步骤3具体包括:
步骤3.1, 通过得到的实体和 关系构建金融知识图谱, 并用Dgraph图数据库进行存储,
Dgraph数据库操作高效, 支持实时运行任意复杂的查询;
步骤3.2, 基于上一步骤构建的知识图谱再构建一个字典树对数据进行回标, 然后用
ALBERT‑CRF模型针对我们的金融数据集进行3轮fi ne‑tuning训练, 提升识别速度;
步骤3.3, 为了更进一步减少模型训练时间和推理时间, 本发明采用两种方法, 第一种
是跨层参数共享, 相当于模型仅学习第一层参数, 在其他所有层.中重用该层参数, 这样即
减少了参数量又有效提升了模型稳定性; 第二种是分解嵌入向量参数 因式, 设W为词向量大
小, H为隐藏层大小, 在BERT、 RoBERTa等预训练语言模型中W≡H, 参数规模为O(V ×H);
ALBERT采用因式分解的方法来降低参数量, 在词嵌入后加入一个矩阵以完成维度变化, 参
数量从O(V ×H)降低为O(V ×E+E×H), 当H> >E时参数量明显减少;
步骤3.4, 将实时处理模块和实体集合提取模块进行综合, 通过命名实体识别常用指标
Micro‑Averaging来计算评测分数, 得到金融文本对应的最优实体集 合, 公式如下:
其中, n代表 金融文本个数, TPi代表第i条文本中正确识别出实体的数量, FPi代表第i条权 利 要 求 书 2/3 页
3
CN 115392251 A
3
专利 一种互联网金融业务的实体实时识别方法
安全报告 >
其他 >
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:37:22上传分享