(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211065582.2 (22)申请日 2022.09.01 (71)申请人 广东工业大 学 地址 510000 广东省广州市东 风东路729号 (72)发明人 陈平华 匡翊政  (74)专利代理 机构 长沙轩荣专利代理有限公司 43235 专利代理师 张慧敏 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/36(2019.01) G06Q 40/00(2012.01) (54)发明名称 一种互联网金融业 务的实体实时识别方法 (57)摘要 本发明公开了一种互联网金融业务的实体 实时识别的方法, 步骤包括: 步骤1): 对输入的金 融文本数据X进行数据预处理, 使用BI O标注体系 对数据集进行标注; 步骤2): 用五折切割来切分 训练集, 使用ALBERT ‑CRF模型对处理过的文本进 行实体识别得到实体集合, 接着用频繁模式挖掘 对数据进行后处理, 由此得到金融文本对应的实 体集合; 步骤3): 通过得到的实体和关系构建金 融领域知识图谱, 接着将上述步骤进行综合, 通 过Micro‑Averaging来计算评测分数, 最终得到 金融文本对应的最优实体集合。 本发 明重点强调 对于互联网中实时的金融文本数据, 可以实时识 别出金融文本中的实体, 提升了金融实体识别的 实时性, 从而更好的为金融领域相关机构和个人 提供信息支撑 。 权利要求书3页 说明书6页 附图3页 CN 115392251 A 2022.11.25 CN 115392251 A 1.一种互联网金融业 务的实体实时识别的方法, 其特 征在于, 包 含以下步骤: 步骤1, 数据 预处理模块中, 对输入的金融文本数据X进行格 式判断, 格 式不正确则进行 数据预处理, 包括数据清洗和数据划分, 然后定义多个实体类型标签, 使用BIO标注体系对 数据集进行 标注; 步骤2, 实体集合提取模块中, 用五折切割来切分训练集, 保证模型泛化性, 再使用 ALBERT‑CRF模型对文本进行实时的实体识别得到实体集合, 对 上一步骤得到的实体集合进 行后处理, 采用频繁模式挖掘可能遗漏的实体, 并过滤掉误识别的实体, 由此得到 当前训练 轮次金融文本对应的最优实体; 步骤3, 实时处理模块中, 通过上一步骤得到的实体和关系从而构建金融领域知识图 谱, 再用ALBERT ‑CRF模型针对 数据集进行三轮fine ‑tunning, 最后引用两种参数减少技术, 提升实体识别的实时性。 2.如权利要求1所述的一种互联网金融业务的实体实时识别的方法, 其特征在于, 所述 步骤1具体包括: 步骤1.1, 针对金融文本常出现的噪音及错误标签等问题, 本发明使用正则表达 式定位 噪声与错 误标签数据; 步骤1.2, 找出数据集 中所有的非中文、 非英文和非数字符号, 比如一些HTML标签、 特殊 符号、 无意义字符等, 利用正则表达式进 行过滤清除实现数据 清洗, 对文本中出现的错误标 签进行定位并针对互联网金融文本进行 数据清洗; 步骤1.3, 定义多个实体类型标签, 比如 “FIN”金融实体, “LOC”地名实体, “ORG”机构实 体,“PER”人名实体, “O”非命名实体; 步骤1.4, 采用BIO标注体系, 将标签细分为 “B‑LOC”、“I‑LOC”、“B‑ORG”、“I‑ORG”、“B‑ PER”、“I‑PER”、“B‑FIN”、“I‑FIN”、“O”; 步骤1.5, 在句子长度超过510个的文本或者无结尾标点的文本的后面直接增加句号, 然后以逗号, 句号, 感叹号, 问号的优先级将长文本分割成多个独立短文本, 同时还要对切 割索引进行保存, 方便之后拼接 。 3.如权利要求1所述的一种互联网金融业务的实体实时识别的方法, 其特征在于, 所述 步骤2具体包括: 步骤2.1, 用五折切割来切分训练集, 分成训练集和验证集, 多维度利用训练集信息, 保 证模型的泛化 性; 步骤2.2, 使用ALBERT预训练语言模型对待 处理金融领域文本进行编码完成词嵌入, 获 取动态词向量; 步骤2.3, 将上一 步的动态词向量输入至 CRF层并解码, 设两组随机变量X=(x1,x2,...,xn)和Y=(y1,y2,...,yn), 线性链式条件随机场定义如下: p(yi|X,y1,y2,...,yi‑1,yy+1,...,yn)=p(yi|X,yi‑1, yi+1),i=1,2,...,n 其中: X为观察状态, Y为隐藏状态; 使用以下CRF的判别计算公式, 可以得到 本发明实体识别模型的预测标签序列的分值:权 利 要 求 书 1/3 页 2 CN 115392251 A 2其中: mask(X,y)表示预测标签序列y的分值, P表示从ALBERT层 得到的分数矩阵, T表示 CRF学习得到的转移矩阵, p(y|X)表示输入序列与标签序列的对应概率, YX表示金融文本数 据序列X对应的所有可能的字符序列; 步骤2.4, 进一步地, 根据所属分数最 高的标签序列, 得到当前语句文本对应的实体, 使 用以下公式来计算 最大化正确标签序列的对数概 率: 其中, X代表输入的金融文本 数据序列X=(x0,x1,...,xn), y代表预测的字符标签序列; 步骤2.5, 再使用以下公式, 解码得到最大值的预测输出序列: ymax=argmax(mask(X, y′)), 接着结合预测的标签序列和实体标注信息, 完成实体边界及分类识别; 步骤2.6, 再对得到的实体集合进行后处理, 采用频繁模式挖掘遗漏的实体并过滤误判 的实体, 由此提取到金融文本对应的实体集 合。 4.如权利要求1所述的一种互联网金融业务的实体实时识别的方法, 其特征在于, 所述 步骤3具体包括: 步骤3.1, 通过得到的实体和 关系构建金融知识图谱, 并用Dgraph图数据库进行存储, Dgraph数据库操作高效, 支持实时运行任意复杂的查询; 步骤3.2, 基于上一步骤构建的知识图谱再构建一个字典树对数据进行回标, 然后用 ALBERT‑CRF模型针对我们的金融数据集进行3轮fi ne‑tuning训练, 提升识别速度; 步骤3.3, 为了更进一步减少模型训练时间和推理时间, 本发明采用两种方法, 第一种 是跨层参数共享, 相当于模型仅学习第一层参数, 在其他所有层.中重用该层参数, 这样即 减少了参数量又有效提升了模型稳定性; 第二种是分解嵌入向量参数 因式, 设W为词向量大 小, H为隐藏层大小, 在BERT、 RoBERTa等预训练语言模型中W≡H, 参数规模为O(V ×H); ALBERT采用因式分解的方法来降低参数量, 在词嵌入后加入一个矩阵以完成维度变化, 参 数量从O(V ×H)降低为O(V ×E+E×H), 当H> >E时参数量明显减少; 步骤3.4, 将实时处理模块和实体集合提取模块进行综合, 通过命名实体识别常用指标 Micro‑Averaging来计算评测分数, 得到金融文本对应的最优实体集 合, 公式如下: 其中, n代表 金融文本个数, TPi代表第i条文本中正确识别出实体的数量, FPi代表第i条权 利 要 求 书 2/3 页 3 CN 115392251 A 3

.PDF文档 专利 一种互联网金融业务的实体实时识别方法

安全报告 > 其他 > 文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种互联网金融业务的实体实时识别方法 第 1 页 专利 一种互联网金融业务的实体实时识别方法 第 2 页 专利 一种互联网金融业务的实体实时识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-17 23:37:22上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。