说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111675055.9 (22)申请日 2021.12.31 (71)申请人 华南师范大学 地址 528225 广东省佛山市南海区狮山 南 海软件园华 南师范大学软件学院 (72)发明人 冼广铭 梅灏洋 余嘉琳 张鑫  王鲁栋  (74)专利代理 机构 广州骏思知识产权代理有限 公司 44425 代理人 张金龙 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 旅游评论短文本分类方法、 装置、 电子设备 及存储介质 (57)摘要 本发明涉及一种旅游评论短文本分类方法、 装置、 电子设备及存储介质。 本发明所述的一种 旅游评论短文本分类方法包括: 获取待分类的文 本, 并对所述待分类的文本进行预处理, 得到数 字化的文本 数据; 采用BERT模型对所述文本数据 进行编码, 得到编码向量; 采用BTM主题模型对所 述文本数据进行主题向量学习, 得到主题向量; 将所述编码向量和所述主题向量进行融合, 得到 融合向量; 提取所述融合向量的深层特征, 得到 上下文语义 关系编码序列; 对所述上下文语义关 系编码序列进行归一化处理, 得到所述文本的所 属类别。 本发 明所述的一种旅游评论短文本分类 方法, 使用的分类模型结合BTM主题模型和BERT 模型, 并进行捕捉文本上下文信息特征, 提高了 文本分类的精度。 权利要求书2页 说明书8页 附图6页 CN 114328932 A 2022.04.12 CN 114328932 A 1.一种旅游评论短文本分类方法, 其特 征在于, 包括以下步骤: 获取待分类的文本, 并对所述待分类的文本进行 预处理, 得到数字化的文本数据; 采用BERT模型对所述文本数据进行编码, 得到编码向量; 采用BTM主题模型对所述文本数据进行主题向量学习, 得到主题向量; 将所述编码向量和所述主题向量进行融合, 得到融合向量; 提取所述融合向量的深层特 征, 得到上 下文语义关系编码序列; 对所述上 下文语义关系编码序列进行归一 化处理, 得到所述文本的所属类别。 2.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 采用BTM主题模 型对所述文本数据进行主题向量学习, 得到主题向量, 包括: 将所述文本数据S输入BTM模型; 将文本数据S转化为Biterm, 得到B=(B1, B2, ..., Bm), 其中Bi表示文本数据经过BTM模型 分解的每一个Biterm; 生成每个Bi的主题分布, 得到W=(W1, W2, ..., Wm), 其中, 其中W为主题向量集, Wi表示每 一个Bi所对应的主题向量。 3.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 采用BERT模型对 所述文本数据进行编码, 得到编码向量, 包括: 将所述文本数据S输入所述BERT模型; 将所述文本数据S=(S1, S2, ..., Sn)进行序列化, 得到序列化的文本数据E=(E1, E2, ..., En), 其中Ei表示文本中第i个字的序列化表示; 用BERT编码器对所述序列化 的文本数据进行训练, 得到编码向量T=(T1, T2, ..., Tn), 其中, T为经 过BERT编码后的向量 集, Ti向表示每一个Ei对应的词编码向量。 4.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 提取所述融合向 量的深层特 征, 包括: 将所述融合向量输入训练好的BiGRU网络; 所述BiGRU网络对所述融合向量进行处理, 提取所述融合向量的深层特征, 得到上下文 语义关系编码序列。 5.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 对所述上下文语 义关系编码序列进行归一 化处理, 得到所述文本的所属类别, 包括: 将所述上 下文语义关系编码序列输入 全连接层进行处 理; 使用softmax函数对所述全连接层的输出结果进行归一化处理, 输出所述文本对应的 分类概率; 根据所述文本对应的分类概 率, 得到所述文本的所属类别。 6.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 将所述编码向量 和所述主题向量进行融合, 得到融合向量, 包括: 使用以下公式, 拼接所述编码向量和所述主题向量: X=[T; W] 其中,“;”表示向量的顺序拼接操作; 得到所述融合向量X=(X1, X2, ..., Xt)。 7.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 对所述待分类的权 利 要 求 书 1/2 页 2 CN 114328932 A 2文本进行 预处理, 包括: 使用分词工具, 将所述待分类的文本切分成短语或者单词; 对所述切分后的文本, 进行去除停止词处 理; 对所述切分后的文本, 进行去除低频词语处 理; 输出所述待分类的文本对应的数字化的文本数据。 8.一种旅游评论短文本分类装置, 其特 征在于, 包括: 文本数据获取模块, 用于获取待分类的文本, 并对所述待分类的文本进行预处理, 得到 数字化的文本数据; 编码模块, 用于采用BERT模型对所述文本数据进行编码, 得到编码向量; 主题向量学习模块, 用于采用BTM主题模型对所述文本数据进行主题向量学习, 得到主 题向量; 向量融合模块, 用于将所述编码向量和所述主题向量进行融合, 得到融合向量: 深层特征提取模块, 用于提取所述融合向量的深层特征, 得到上下文语义关系编码序 列; 归一化模块, 用于对所述上下文语义关系编码序列进行归一化处理, 得到所述文本的 所属类别。 9.一种电子设备, 其特 征在于, 包括: 至少一个存 储器以及至少一个处 理器; 所述存储器, 用于存 储一个或多个程序; 当所述一个或多个程序被所述至少一个处理器执行, 使得所述至少一个处理器实现如 权利要求1 ‑7任一所述的一种旅游评论短文本分类方法的步骤。 10.一种计算机可读存 储介质, 其特 征在于: 所述计算机可读存储介质存储有计算机程序, 所述计算机程序被处理器执行时实现如 权利要求1 ‑7任一所述的一种旅游评论短文本分类方法的步骤。权 利 要 求 书 2/2 页 3 CN 114328932 A 3

.PDF文档 专利 旅游评论短文本分类方法、装置、电子设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 旅游评论短文本分类方法、装置、电子设备及存储介质 第 1 页 专利 旅游评论短文本分类方法、装置、电子设备及存储介质 第 2 页 专利 旅游评论短文本分类方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:51:09上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。