专利文本分类方法、装置、设备及计算机可读存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210340732.X (22)申请日 2022.04.02 (65)同一申请的已公布的文献号申请公布号 CN 114492420 A (43)申请公布日 2022.05.13 (73)专利权人北京中科闻歌科技股份有限公司地址 100083 北京市海淀区北四环西路9号楼7层717室 (72)发明人蒋永余　王俊艳　王璋盛　曹家　罗引　王磊　 (74)专利代理机构北京开阳星知识产权代理有限公司 1 1710 专利代理师袁义科 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)(56)对比文件 CN 111444700 A,2020.07.24 CN 112613324 A,2021.04.0 6 CN 111737974 A,2020.10.02 CN 109933670 A,2019.0 6.25 CN 109858010 A,2019.0 6.07 CN 113314110 A,2021.08.27 CN 108052924 A,2018.0 5.18 WO 20210 35921 A1,2021.0 3.04 US 11194972 B1,2021.12.07 曹中华等.多原型词向量与文本主题联合学习模型. 《中文信息学报》 .2020,第34卷(第3 期), 戴臻.内容文本分类中的语义特征提取算法研究. 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 .2011,(第02期), (续) 审查员熊钟铭 (54)发明名称文本分类方法、装置、设备及计算机可读存储介质 (57)摘要本公开涉及一种文本分类方法、装置、设备及计算机可读存储介质，该方法包括：对待分类的文本进行分词处理，得到文本中包含的词汇；从预设的语义库中查找词汇对应的语义，以及语义在语义库中的位置，得到语义的位置向量；响应于词汇对应的语义有多个，基于词汇在所述文本中的上下文，确定词汇对应的每个语义的权重；基于词汇对应的每个语义的权重，对词汇对应的多个语义的位置向量进行加权叠加处理，得到词汇的特征向量；基于文本中包含的词汇的特征向量，确定文本的特征向量；基于文本的特征向量对文本进行分类。通过上述技术方案，将文本转化到量子领域进行处理，减少计算成本的同时，提升了文本的分类准确率，提升用户的使用体验。 [转续页] 权利要求书2页说明书9页附图4页 CN 114492420 B 2022.07.29 CN 114492420 B (56)对比文件 Lin Chuan-Kai 等.N onsingular termi nal sliding mode co ntrol of robot manipulators usi ng fuzzy wavelet networks. 《IE EE transacti ons on fuzzy systems》 .2006,第14卷(第6期), Wang, B. 等.Semantic Hi lbert space for text representati on learning. 《The World Wide Web Co nference》 .2019,2/2 页 2[接上页] CN 114492420 B1.一种文本分类方法，其特征在于，所述方法包括：对待分类的文本进行分词处理，得到所述文本中包含的词汇；基于词汇与身份标识之间的映射关系，确定所述文本中包含的词汇的身份标识；基于所述词汇的身份标识，从预设的语义库中查找得到所述词汇对应的语义，以及所述语义在所述语义库中的位置，所述语义库中存储有多个语义以及每个语义关联的词汇的身份标识；基于所述语义在所述语义库中的位置，生成所述语义的位置向量；响应于所述词汇对应的语义有多个，基于所述词汇在所述文本中的上下文，确定所述词汇对应的每个语义的权重；基于所述词汇对应的每个语义的权重，对所述词汇对应的多个语义的位置向量进行加权叠加处理，得到所述词汇的特征向量；基于所述文本中包含的词汇的特征向量，确定所述文本的特征向量；基于所述文本的特征向量对所述文本进行分类。 2.根据权利要求1所述的方法，其特征在于，所述对待分类的文本进行分词处理，得到所述文本中包含的词汇，包括：对待分类的文本进行语句划分处理，得到所述文本中包含的语句；对所述语句进行分词处理，得到所述语句中包含的词汇。 3.根据权利要求2所述的方法，其特征在于，所述基于所述文本中包含的词汇的特征向量，确定所述文本的特征向量，包括：基于所述语句中包含的词汇的特征向量，确定所述语句的特征向量；基于所述文本中包含的语句的特征向量，确定所述文本的特征向量。 4.根据权利要求3所述的方法，其特征在于，所述基于所述语句中包含的词汇的特征向量，确定所述语句的特征向量，包括：将所述语句中包含的词汇的特征向量投影到所述语句的最后一个词汇上，将所述最后一个词汇的特征向量作为所述语句的特征向量。 5.根据权利要求3所述的方法，其特征在于，所述基于所述文本中包含的语句的特征向量，确定所述文本的特征向量，包括：将所述文本中包含的语句的特征向量进行叠加，得到所有语句的叠加特征向量，将所述叠加特征向量作为所述文本的特征向量。 6.一种文本分类装置，其特征在于，包括：词汇获取模块，用于对待分类的文本进行分词处理，得到所述文本中包含的词汇；位置向量获取模块，用于基于词汇与身份标识之间的映射关系，确定所述文本中包含的词汇的身份标识；基于所述词汇的身份标识，从预设的语义库中查找得到所述词汇对应的语义，以及所述语义在所述语义库中的位置，所述语义库中存储有多个语义以及每个语义关联的词汇的身份标识；基于所述语义在所述语义库中的位置，生成所述语义的位置向量；语义权重确定模块，用于响应于所述词汇对应的语义有多个，基于所述词汇在所述文本中的上下文，确定所述词汇对应的每个语义的权重；词汇特征向量获取模块，用于基于所述词汇对应的每个语义的权重，对所述词汇对应权　利　要　求　书 1/2 页 2 CN 114492420 B 3

专利 文本分类方法、装置、设备及计算机可读存储介质

专利文本分类方法、装置、设备及计算机可读存储介质