专利 一种互联网金融业务的实体实时识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211065582.2 (22)申请日 2022.09.01 (71)申请人广东工业大学地址 510000 广东省广州市东风东路729号 (72)发明人陈平华　匡翊政　 (74)专利代理机构长沙轩荣专利代理有限公司 43235 专利代理师张慧敏 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/36(2019.01) G06Q 40/00(2012.01) (54)发明名称一种互联网金融业务的实体实时识别方法 (57)摘要本发明公开了一种互联网金融业务的实体实时识别的方法，步骤包括：步骤1)：对输入的金融文本数据X进行数据预处理，使用BI O标注体系对数据集进行标注；步骤2)：用五折切割来切分训练集，使用ALBERT ‑CRF模型对处理过的文本进行实体识别得到实体集合，接着用频繁模式挖掘对数据进行后处理，由此得到金融文本对应的实体集合；步骤3)：通过得到的实体和关系构建金融领域知识图谱，接着将上述步骤进行综合，通过Micro‑Averaging来计算评测分数，最终得到金融文本对应的最优实体集合。本发明重点强调对于互联网中实时的金融文本数据，可以实时识别出金融文本中的实体，提升了金融实体识别的实时性，从而更好的为金融领域相关机构和个人提供信息支撑。权利要求书3页说明书6页附图3页 CN 115392251 A 2022.11.25 CN 115392251 A 1.一种互联网金融业务的实体实时识别的方法，其特征在于，包含以下步骤：步骤1，数据预处理模块中，对输入的金融文本数据X进行格式判断，格式不正确则进行数据预处理，包括数据清洗和数据划分，然后定义多个实体类型标签，使用BIO标注体系对数据集进行标注；步骤2，实体集合提取模块中，用五折切割来切分训练集，保证模型泛化性，再使用 ALBERT‑CRF模型对文本进行实时的实体识别得到实体集合，对上一步骤得到的实体集合进行后处理，采用频繁模式挖掘可能遗漏的实体，并过滤掉误识别的实体，由此得到当前训练轮次金融文本对应的最优实体；步骤3，实时处理模块中，通过上一步骤得到的实体和关系从而构建金融领域知识图谱，再用ALBERT ‑CRF模型针对数据集进行三轮fine ‑tunning，最后引用两种参数减少技术，提升实体识别的实时性。 2.如权利要求1所述的一种互联网金融业务的实体实时识别的方法，其特征在于，所述步骤1具体包括：步骤1.1，针对金融文本常出现的噪音及错误标签等问题，本发明使用正则表达式定位噪声与错误标签数据；步骤1.2，找出数据集中所有的非中文、非英文和非数字符号，比如一些HTML标签、特殊符号、无意义字符等，利用正则表达式进行过滤清除实现数据清洗，对文本中出现的错误标签进行定位并针对互联网金融文本进行数据清洗；步骤1.3，定义多个实体类型标签，比如 “FIN”金融实体， “LOC”地名实体， “ORG”机构实体，“PER”人名实体， “O”非命名实体；步骤1.4，采用BIO标注体系，将标签细分为 “B‑LOC”、“I‑LOC”、“B‑ORG”、“I‑ORG”、“B‑ PER”、“I‑PER”、“B‑FIN”、“I‑FIN”、“O”；步骤1.5，在句子长度超过510个的文本或者无结尾标点的文本的后面直接增加句号，然后以逗号，句号，感叹号，问号的优先级将长文本分割成多个独立短文本，同时还要对切割索引进行保存，方便之后拼接。 3.如权利要求1所述的一种互联网金融业务的实体实时识别的方法，其特征在于，所述步骤2具体包括：步骤2.1，用五折切割来切分训练集，分成训练集和验证集，多维度利用训练集信息，保证模型的泛化性；步骤2.2，使用ALBERT预训练语言模型对待处理金融领域文本进行编码完成词嵌入，获取动态词向量；步骤2.3，将上一步的动态词向量输入至 CRF层并解码，设两组随机变量X＝(x1,x2,...,xn)和Y＝(y1,y2,...,yn)，线性链式条件随机场定义如下： p(yi|X,y1,y2,...,yi‑1,yy+1,...,yn)＝p(yi|X,yi‑1, yi+1),i＝1,2,...,n 其中： X为观察状态， Y为隐藏状态；使用以下CRF的判别计算公式，可以得到本发明实体识别模型的预测标签序列的分值：权　利　要　求　书 1/3 页 2 CN 115392251 A 2其中： mask(X,y)表示预测标签序列y的分值， P表示从ALBERT层得到的分数矩阵， T表示 CRF学习得到的转移矩阵， p(y|X)表示输入序列与标签序列的对应概率， YX表示金融文本数据序列X对应的所有可能的字符序列；步骤2.4，进一步地，根据所属分数最高的标签序列，得到当前语句文本对应的实体，使用以下公式来计算最大化正确标签序列的对数概率：其中， X代表输入的金融文本数据序列X＝(x0,x1,...,xn)， y代表预测的字符标签序列；步骤2.5，再使用以下公式，解码得到最大值的预测输出序列： ymax＝argmax(mask(X, y′))，接着结合预测的标签序列和实体标注信息，完成实体边界及分类识别；步骤2.6，再对得到的实体集合进行后处理，采用频繁模式挖掘遗漏的实体并过滤误判的实体，由此提取到金融文本对应的实体集合。 4.如权利要求1所述的一种互联网金融业务的实体实时识别的方法，其特征在于，所述步骤3具体包括：步骤3.1，通过得到的实体和关系构建金融知识图谱，并用Dgraph图数据库进行存储， Dgraph数据库操作高效，支持实时运行任意复杂的查询；步骤3.2，基于上一步骤构建的知识图谱再构建一个字典树对数据进行回标，然后用 ALBERT‑CRF模型针对我们的金融数据集进行3轮fi ne‑tuning训练，提升识别速度；步骤3.3，为了更进一步减少模型训练时间和推理时间，本发明采用两种方法，第一种是跨层参数共享，相当于模型仅学习第一层参数，在其他所有层.中重用该层参数，这样即减少了参数量又有效提升了模型稳定性；第二种是分解嵌入向量参数因式，设W为词向量大小， H为隐藏层大小，在BERT、 RoBERTa等预训练语言模型中W≡H，参数规模为O(V ×H)； ALBERT采用因式分解的方法来降低参数量，在词嵌入后加入一个矩阵以完成维度变化，参数量从O(V ×H)降低为O(V ×E+E×H)，当H＞＞E时参数量明显减少；步骤3.4，将实时处理模块和实体集合提取模块进行综合，通过命名实体识别常用指标 Micro‑Averaging来计算评测分数，得到金融文本对应的最优实体集合，公式如下：其中， n代表金融文本个数， TPi代表第i条文本中正确识别出实体的数量， FPi代表第i条权　利　要　求　书 2/3 页 3 CN 115392251 A 3

专利 一种互联网金融业务的实体实时识别方法

专利一种互联网金融业务的实体实时识别方法