(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210340732.X
(22)申请日 2022.04.02
(65)同一申请的已公布的文献号
申请公布号 CN 114492420 A
(43)申请公布日 2022.05.13
(73)专利权人 北京中科闻歌科技股份有限公司
地址 100083 北京市海淀区北四环西路9号
楼7层717室
(72)发明人 蒋永余 王俊艳 王璋盛 曹家
罗引 王磊
(74)专利代理 机构 北京开阳星知识产权代理有
限公司 1 1710
专利代理师 袁义科
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)(56)对比文件
CN 111444700 A,2020.07.24
CN 112613324 A,2021.04.0 6
CN 111737974 A,2020.10.02
CN 109933670 A,2019.0 6.25
CN 109858010 A,2019.0 6.07
CN 113314110 A,2021.08.27
CN 108052924 A,2018.0 5.18
WO 20210 35921 A1,2021.0 3.04
US 11194972 B1,2021.12.07
曹中华 等.多原型词向量与文本主题联合
学习模型. 《中文信息学报》 .2020,第34卷(第3
期),
戴臻.内容文本分类中的语义特 征提取算法
研究. 《中国优秀博硕士学位 论文全文数据库(硕
士)信息科技 辑》 .2011,(第02期), (续)
审查员 熊钟铭
(54)发明名称
文本分类方法、 装置、 设备及计算机可读存
储介质
(57)摘要
本公开涉及一种文本分类方法、 装置、 设备
及计算机可读存储介质, 该方法包括: 对待分类
的文本进行分词处理, 得到文本中包含的词汇;
从预设的语义库中查找词汇对应的语义, 以及语
义在语义库中的位置, 得到语义的位置向量; 响
应于词汇对应的语义有多个, 基于词汇在所述文
本中的上下文, 确定词汇对应的每个语义的权
重; 基于词汇对应的每个语义的权重, 对词汇对
应的多个语义的位置向量进行加权叠加处理, 得
到词汇的特征向量; 基于文本中包含的词汇的特
征向量, 确定文本的特征向量; 基于文本的特征
向量对文本进行分类。 通过上述技术方案, 将文
本转化到量子领域进行处理, 减少计算成本的同时, 提升了文本的分类准确率, 提升用户的使用
体验。
[转续页]
权利要求书2页 说明书9页 附图4页
CN 114492420 B
2022.07.29
CN 114492420 B
(56)对比文件
Lin Chuan-Kai 等.N onsingular termi nal
sliding mode co ntrol of robot
manipulators usi ng fuzzy wavelet
networks. 《IE EE transacti ons on fuzzy systems》 .2006,第14卷(第6期),
Wang, B. 等.Semantic Hi lbert space
for text representati on learning. 《The
World Wide Web Co nference》 .2019,2/2 页
2[接上页]
CN 114492420 B1.一种文本分类方法, 其特 征在于, 所述方法包括:
对待分类的文本进行分词处 理, 得到所述文本中包 含的词汇;
基于词汇与身份标识之间的映射关系, 确定所述文本中包 含的词汇的身份标识;
基于所述词汇 的身份标识, 从预设的语义库中查找得到所述词汇对应的语义, 以及所
述语义在所述语义库中的位置, 所述语义库中存储有多个语义以及每个语义关联的词汇的
身份标识;
基于所述语义在所述语义库中的位置, 生成所述语义的位置向量;
响应于所述词汇对应的语义有多个, 基于所述词汇在所述文本中的上下文, 确定所述
词汇对应的每 个语义的权 重;
基于所述词汇对应的每个语义的权重, 对所述词汇对应的多个语义的位置向量进行加
权叠加处理, 得到所述词汇的特 征向量;
基于所述文本中包 含的词汇的特 征向量, 确定所述文本的特 征向量;
基于所述文本的特 征向量对所述文本进行分类。
2.根据权利要求1所述的方法, 其特征在于, 所述对待分类的文本进行分词处理, 得到
所述文本中包 含的词汇, 包括:
对待分类的文本进行语句划分处 理, 得到所述文本中包 含的语句;
对所述语句进行分词处 理, 得到所述语句中包 含的词汇。
3.根据权利要求2所述的方法, 其特征在于, 所述基于所述文本中包含的词汇的特征向
量, 确定所述文本的特 征向量, 包括:
基于所述语句中包 含的词汇的特 征向量, 确定所述语句的特 征向量;
基于所述文本中包 含的语句的特 征向量, 确定所述文本的特 征向量。
4.根据权利要求3所述的方法, 其特征在于, 所述基于所述语句中包含的词汇的特征向
量, 确定所述语句的特 征向量, 包括:
将所述语句中包含的词汇的特征向量投影到所述语句的最后 一个词汇上, 将所述最后
一个词汇的特 征向量作为所述语句的特 征向量。
5.根据权利要求3所述的方法, 其特征在于, 所述基于所述文本中包含的语句的特征向
量, 确定所述文本的特 征向量, 包括:
将所述文本中包含的语句的特征向量进行叠加, 得到所有语句的叠加特征向量, 将所
述叠加特 征向量作为所述文本的特 征向量。
6.一种文本分类装置, 其特 征在于, 包括:
词汇获取模块, 用于对待分类的文本进行分词处 理, 得到所述文本中包 含的词汇;
位置向量获取模块, 用于基于词汇与身份标识之间的映射关系, 确定所述文本中包含
的词汇的身份标识; 基于所述词汇的身份标识, 从预设的语义库中查找得到所述词汇对应
的语义, 以及所述语义在所述语义库中的位置, 所述语义库中存储有多个语义以及每个语
义关联的词汇的身份标识; 基于所述语义在所述语义库中的位置, 生成所述语义的位置 向
量;
语义权重确定模块, 用于响应于所述词汇对应的语义有多个, 基于所述词汇在所述文
本中的上 下文, 确定所述词汇对应的每 个语义的权 重;
词汇特征向量获取模块, 用于基于所述词汇对应的每个语义的权重, 对所述词汇对应权 利 要 求 书 1/2 页
2
CN 114492420 B
3
专利 文本分类方法、装置、设备及计算机可读存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:50:57上传分享