说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111675055.9 (22)申请日 2021.12.31 (71)申请人 华南师范大学 地址 528225 广东省佛山市南海区狮山 南 海软件园华 南师范大学软件学院 (72)发明人 冼广铭 梅灏洋 余嘉琳 张鑫 王鲁栋 (74)专利代理 机构 广州骏思知识产权代理有限 公司 44425 代理人 张金龙 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 旅游评论短文本分类方法、 装置、 电子设备 及存储介质 (57)摘要 本发明涉及一种旅游评论短文本分类方法、 装置、 电子设备及存储介质。 本发明所述的一种 旅游评论短文本分类方法包括: 获取待分类的文 本, 并对所述待分类的文本进行预处理, 得到数 字化的文本 数据; 采用BERT模型对所述文本数据 进行编码, 得到编码向量; 采用BTM主题模型对所 述文本数据进行主题向量学习, 得到主题向量; 将所述编码向量和所述主题向量进行融合, 得到 融合向量; 提取所述融合向量的深层特征, 得到 上下文语义 关系编码序列; 对所述上下文语义关 系编码序列进行归一化处理, 得到所述文本的所 属类别。 本发 明所述的一种旅游评论短文本分类 方法, 使用的分类模型结合BTM主题模型和BERT 模型, 并进行捕捉文本上下文信息特征, 提高了 文本分类的精度。 权利要求书2页 说明书8页 附图6页 CN 114328932 A 2022.04.12 CN 114328932 A 1.一种旅游评论短文本分类方法, 其特 征在于, 包括以下步骤: 获取待分类的文本, 并对所述待分类的文本进行 预处理, 得到数字化的文本数据; 采用BERT模型对所述文本数据进行编码, 得到编码向量; 采用BTM主题模型对所述文本数据进行主题向量学习, 得到主题向量; 将所述编码向量和所述主题向量进行融合, 得到融合向量; 提取所述融合向量的深层特 征, 得到上 下文语义关系编码序列; 对所述上 下文语义关系编码序列进行归一 化处理, 得到所述文本的所属类别。 2.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 采用BTM主题模 型对所述文本数据进行主题向量学习, 得到主题向量, 包括: 将所述文本数据S输入BTM模型; 将文本数据S转化为Biterm, 得到B=(B1, B2, ..., Bm), 其中Bi表示文本数据经过BTM模型 分解的每一个Biterm; 生成每个Bi的主题分布, 得到W=(W1, W2, ..., Wm), 其中, 其中W为主题向量集, Wi表示每 一个Bi所对应的主题向量。 3.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 采用BERT模型对 所述文本数据进行编码, 得到编码向量, 包括: 将所述文本数据S输入所述BERT模型; 将所述文本数据S=(S1, S2, ..., Sn)进行序列化, 得到序列化的文本数据E=(E1, E2, ..., En), 其中Ei表示文本中第i个字的序列化表示; 用BERT编码器对所述序列化 的文本数据进行训练, 得到编码向量T=(T1, T2, ..., Tn), 其中, T为经 过BERT编码后的向量 集, Ti向表示每一个Ei对应的词编码向量。 4.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 提取所述融合向 量的深层特 征, 包括: 将所述融合向量输入训练好的BiGRU网络; 所述BiGRU网络对所述融合向量进行处理, 提取所述融合向量的深层特征, 得到上下文 语义关系编码序列。 5.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 对所述上下文语 义关系编码序列进行归一 化处理, 得到所述文本的所属类别, 包括: 将所述上 下文语义关系编码序列输入 全连接层进行处 理; 使用softmax函数对所述全连接层的输出结果进行归一化处理, 输出所述文本对应的 分类概率; 根据所述文本对应的分类概 率, 得到所述文本的所属类别。 6.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 将所述编码向量 和所述主题向量进行融合, 得到融合向量, 包括: 使用以下公式, 拼接所述编码向量和所述主题向量: X=[T; W] 其中,“;”表示向量的顺序拼接操作; 得到所述融合向量X=(X1, X2, ..., Xt)。 7.根据权利要求1所述的一种旅游评论短文本分类方法, 其特征在于, 对所述待分类的权 利 要 求 书 1/2 页 2 CN 114328932 A 2文本进行 预处理, 包括: 使用分词工具, 将所述待分类的文本切分成短语或者单词; 对所述切分后的文本, 进行去除停止词处 理; 对所述切分后的文本, 进行去除低频词语处 理; 输出所述待分类的文本对应的数字化的文本数据。 8.一种旅游评论短文本分类装置, 其特 征在于, 包括: 文本数据获取模块, 用于获取待分类的文本, 并对所述待分类的文本进行预处理, 得到 数字化的文本数据; 编码模块, 用于采用BERT模型对所述文本数据进行编码, 得到编码向量; 主题向量学习模块, 用于采用BTM主题模型对所述文本数据进行主题向量学习, 得到主 题向量; 向量融合模块, 用于将所述编码向量和所述主题向量进行融合, 得到融合向量: 深层特征提取模块, 用于提取所述融合向量的深层特征, 得到上下文语义关系编码序 列; 归一化模块, 用于对所述上下文语义关系编码序列进行归一化处理, 得到所述文本的 所属类别。 9.一种电子设备, 其特 征在于, 包括: 至少一个存 储器以及至少一个处 理器; 所述存储器, 用于存 储一个或多个程序; 当所述一个或多个程序被所述至少一个处理器执行, 使得所述至少一个处理器实现如 权利要求1 ‑7任一所述的一种旅游评论短文本分类方法的步骤。 10.一种计算机可读存 储介质, 其特 征在于: 所述计算机可读存储介质存储有计算机程序, 所述计算机程序被处理器执行时实现如 权利要求1 ‑7任一所述的一种旅游评论短文本分类方法的步骤。权 利 要 求 书 2/2 页 3 CN 114328932 A 3
专利 旅游评论短文本分类方法、装置、电子设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 21:51:09
上传分享
举报
下载
原文档
(868.2 KB)
分享
友情链接
T-CCPS 0001—2023 易学文化水平测试标准.pdf
T-CEC 642—2022 电力5G通信模组通用技术要求.pdf
GB-T 31191-2014 常温锰系脱氧剂脱氧性能试验方法.pdf
民航 MH-T 6011-2015 标记牌.pdf
DB23-T 2979—2021 大豆对大豆拟茎点种腐病抗病性鉴定技术规程 黑龙江省.pdf
NIST 关键基础设施网络安全改善框架-美国关基-v1.1-2018年 安全内参翻译版本.pdf
GB-T 40170-2021 质粒抽提及检测通则.pdf
GB-T 18994-2014 电子工业用气体 高纯氯.pdf
GB-T 19668.4-2017 信息技术服务监理第4部分信息安全监理规范.pdf
T-WAPIA 045.3—2021 信息技术 系统间远程通信和信息交换 原子密钥建立与实体鉴别 第3部分:采用证书的原子密钥建立与实体鉴别.pdf
GB-T 32386-2015 电子工业用气体 六氟化钨.pdf
GB-T 39467-2020 北斗精密服务产品规范.pdf
GB-T 20512-2006 GPS接收机导航定位数据输出格式.pdf
GB-T 27977-2022 水泥生产电能能效测试及计算方法.pdf
T-CPUMT 010—2022 往复式内燃机电站设计规范.pdf
信通院 数据清洗、去标识化、匿名化业务规程 试行.pdf
GB-T 26358-2022 旅游度假区等级划分.pdf
JY-T 0568-2020 电感耦合等离子体质谱分析方法通则.pdf
DB46-T 154-2009 电梯节能改造技术指南 海南省.pdf
GB-T 9491-2021 锡焊用助焊剂.pdf
1
/
3
17
评价文档
赞助2.5元 点击下载(868.2 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。