专利 基于自然语言处理的业务网站监测系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211059228.9 (22)申请日 2022.08.31 (71)申请人广州宝立科技有限公司地址 510000 广东省广州市天河区黄埔大道西100号之二1401室(仅限办公) (72)发明人钟志宏　陈肇文　徐永兴　 (74)专利代理机构广州市律帆知识产权代理事务所(普通合伙) 44614 专利代理师余永文 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06N 5/02(2006.01) G06N 3/04(2006.01) (54)发明名称基于自然语言处理的业务网站监测系统 (57)摘要本申请属于互联网及人工智能技术领域，涉及基于自然语言处理的业务网站监测系统，包括：数据在线处理子系统通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据并发送至数据采集清洗子系统，数据采集清洗子系统对第一业务网站数据进行清洗得到第二业务网站数据并发送至数据资源管理子系统，数据资源管理子系统将来自数据采集清洗子系统的第二业务网站数据传输至数据分析应用子系统，数据分析应用子系统利用经训练的基于Transformer架构的预训练语言模型对来自数据资源管理子系统的第二业务网站数据进行分析，该基于Transformer架构的预训练语言模型利用目标业务领域的文本语料训练得到；该方案能够提高对业务网站数据监测分析的准确性和效率。权利要求书3页说明书11页附图2页 CN 115438183 A 2022.12.06 CN 115438183 A 1.一种基于自然语言处理的业务网站监测系统，其特征在于，所述系统包括：数据在线处理子系统、数据采集清洗子系统、数据资源管理子系统和数据分析应用子系统；其中，所述数据在线处理子系统，用于通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据，发送至所述数据采集清洗子系统；所述数据采集清洗子系统，用于对所述第一业务网站数据进行清洗得到第二业务网站数据，将所述第二业务网站数据发送至所述数据资源管理子系统；所述数据资源管理子系统，用于将来自所述数据采集清洗子系统的第二业务网站数据传输至所述数据分析应用子系统；所述数据分析应用子系统，用于获取经训练的基于Transformer架构的预训练语言模型，利用所述预训练语言模型对来自所述数据资源管理子系统的第二业务网站数据进行分析；其中，所述基于Transformer架构的预训练语言模型利用所述目标业务领域的文本语料训练得到。 2.根据权利要求1所述的系统，其特征在于，所述基于Transformer架构的预训练语言模型依次包括：嵌入层、多层Transformer Encoder结构和输出层；所述嵌入层包括字嵌入部分、块嵌入部分和位置嵌入部分；所述Transformer Encoder结构包括Transformer结构和Encoder结构；所述Encoder结构包括归一化层和全连接层；所述数据分析应用子系统，进一步用于利用所述目标业务领域的文本语料进行掩码训练，得到所述基于Transformer 架构的预训练语言模型。 3.根据权利要求2所述的系统，其特征在于，所述Encoder结构对应的运算方式为：其中， X表示Encoder结构输入， YEncoder表示Encoder结构输出， MHA(X)表示Transformer 结构的输出， LayerNorm(.)表示对矩阵进行归一化运算， FeedForward(L1)表示全连接层的输出。 4.根据权利要求2所述的系统，其特征在于，数据分析应用子系统，还用于利用GPU线程对掩码的文本语料进行训练，以及利用CPU对下一批文本语料进行掩码处理；其中，所述掩码包含字符掩码、实体掩码和片段掩码中的一种或多种；所述数据分析应用子系统，进一步用于在训练过程中，根据所述基于Transformer架构的预训练语言模型的输出序列和嵌入层的输出序列结合被掩盖字符的下标，得到输出序列的掩码表示，根据所述输出序列的掩码表示计算掩码位置对应的词表上的概率分布矩阵，根据所述概率分布矩阵计算交叉熵损失，根据所述交叉熵损失调整每一Transformer Encoder结构的网络参数。 5.根据权利要求4所述的系统，其特征在于，所述数据分析应用子系统，进一步用于获取通用文本语料库和所述目标业务领域的文本语料库，利用所述通用文本语料库中的通用文本语料进行掩码训练得到初步的基于Tr ansformer架构的预训练语言模型，在所述初步的基于Transformer架构的预训练语言模型的基础上，利用所述目标业务领域的文本语料库中的文本语料进行掩码训练，得到所述基于Transformer 架构的预训练语言模型。 6.根据权利要求1所述的系统，其特征在于，所述数据在线处理子系统进一步用于对输权　利　要　求　书 1/3 页 2 CN 115438183 A 2出的第一业务网站数据进行打包处理，并在打包的数据包中添加安全校验信息；所述数据采集清洗子系统进一步用于对所述安全校验信息进行校验后解包得到第一业务网站数据；其中，所述安全校验信息包括间隔性地对第一业务网站数据进行解密所使用的密钥打上的使用时间标签；所述数据采集清洗子系统预先接收一份密钥使用列表，并根据所述密钥使用列表中记录的对第一业务网站数据解密所使用的密钥及其前后时间关联性对第一业务网站数据的数据包进行校验。 7.根据权利要求6所述的系统，其特征在于，所述数据在线处理子系统进一步用于对输出的第一业务网站数据的关键字进行识别；根据所述关键字识别所述第一业务网站数据的重要性程度并划分等级，并分别对所述第一业务网站数据打上等级标签；其中，所述等级包括高级、中级和低级；所述数据采集清洗子系统进一步用于对所述高级等级的第一业务网站数据进行逐条清洗处理，对所述中级等级的第一业务网站数据清除异常数据后再进行清洗处理，以及对所述低级等级的第一业务网站数据清除异常数据且对同类数据融合后进行清洗处理，输出第二业务网站数据。 8.根据权利要求7所述的系统，其特征在于，所述数据分析应用子系统进一步用于对所述第二业务网站数据进行分析时，向数据采集清洗子系统实时反馈数据训练状态；所述数据采集清洗子系统进一步用于根据所述数据训练状态，并计算出所需使用的数据清洗函数表中的目标数据清洗函数；其中，数据采集清洗子系统中预存有数据清洗函数表，所述数据清洗函数表上记录有多种不同的数据清洗函数；从所述数据清洗函数表中读取所述目标数据清洗函数对第一业务网站数据进行清洗处理。 9.根据权利要求8所述的系统，其特征在于，所述数据采集清洗子系统进一步用于将目标数据清洗函数以及当前的数据清洗进度信息反馈至数据在线处理子系统；所述数据在线处理子系统进一步用于根据目标数据清洗函数以及数据清洗进度信息，对数据采集清洗子系统的数据处理量进行预测分析；并根据所述预测分析结果确定数据采集清洗子系统的数据处理能力值，根据所述数据处理能力值对输出的第一业务网站数据进行优化处理；其中，所述优化处理包括：若数据处理能力值低于设定阈值，调整对低级等级的第一业务网站数据进行融合处理时的融合程度，或者根据设定规则抛弃部分低级等级的第一业务网站数据。 10.根据权利要求1所述的系统，其特征在于，所述数据在线处理子系统，进一步用于：通过互联网接收由属于目标业务领域的受监测业务网站发送的加密的第一业务网站数据；根据所述加密的第一业务网站数据的发送时间，从预置的密钥库中获取所述发送时间对应的密钥；利用所述发送时间对应的密钥对所述加密的第一业务网站数据进行解密，得到所述第一业务网站数据，发送至所述数据采集清洗子系统；所述数据分析应用子系统，进一步用于：确定所述第一业务网站数据对应的发布平台；根据所述发布平台，从模型库中获取所述发布平台对应的经训练的基于Transformer权　利　要　求　书 2/3 页 3 CN 115438183 A 3

专利 基于自然语言处理的业务网站监测系统

专利基于自然语言处理的业务网站监测系统