全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210241147.4 (22)申请日 2022.03.11 (71)申请人 北京中知智慧科技有限公司 地址 100088 北京市海淀区马甸南村一 号9 幢202号 (72)发明人 朱欣昱 刘琦 程序  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 专利代理师 薛平 郝博 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/242(2020.01) G06F 16/36(2019.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 专利数据的CPC分类方法及装置 (57)摘要 本发明公开了一种专利数据的CPC分类方法 及装置, 其中该方法包括: 获取待分类的专利数 据; 将待分类的专利数据拆分为多个部分; 根据 预设特征提取策略, 对每一部分的待分类的专利 数据进行特征提取, 得到每一部分的待分类的专 利数据对应的特征向量; 将每一部分的待分类的 专利数据对应的特征向量输入预先建立的神经 网络CPC分类模型的多个分类子模型中, 得到专 利数据的多个CPC分类子 结果; 根据多个CPC分类 子结果预测得到最终的CPC分类结果; 神经网络 CPC分类模型根据多个历史专利样本数据预先训 练生成, 分类模型包括多个分类子模型。 本发明 可以实现高效准确地对专利数据进行CPC分类, 提高了专利数据的CPC分类准确率和效率。 权利要求书2页 说明书11页 附图3页 CN 114579749 A 2022.06.03 CN 114579749 A 1.一种专利数据的CPC分类方法, 其特 征在于, 包括: 获取待分类的专利数据; 将待分类的专利数据拆分为多个部分, 得到多个部分的待分类的专利数据; 根据预设特征提取策略, 对每一部分的待分类的专利数据进行特征提取, 得到每一部 分的待分类的专利数据对应的特 征向量; 将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络CPC分类模 型的多个分类子模型中, 得到专利 数据的多个CPC分类子结果; 根据多个CPC分类子结果预 测得到最 终的CPC分类结果; 所述神经网络CP C分类模型根据多个历史专利样本数据预先训 练生成, 所述神经网络 CPC分类模型包括多个分类子模型。 2.如权利要求1所述的专利数据的CPC分类方法, 其特征在于, 还包括按照如下方法预 先训练得到所述神经网络 CPC分类模型: 获取多个历史专利样本数据; 所述历史专利样本数据包 含CPC分类数据; 将历史专利样本数据进行分组; 对各组专利数据进行分词及关键词抽取, 生成每一组专利数据对应的CPC词典、 IPC词 典、 全文分词 词典和关键词 词典; 根据每一组专利数据对应的CPC词典、 IPC词典、 全文分词词典和关键词词典, 对所有历 史专利样本数据进行特征向量化处理, 得到所有历史专利样本数据对应的特征向量化数 据; 利用所有历史专利样本数据对应的特征向量化数据, 训练神经网络模型得到所述神经 网络CPC分类模型。 3.如权利要求2所述的专利数据的CPC分类方法, 其特征在于, 将历史专利样本数据进 行分组, 包括: 按照IPC小类将历史专利样本数据进行分组。 4.如权利要求2所述的专利数据的CPC分类方法, 其特 征在于, 还 包括: 获取多个历史专利样本数据; 根据多个历史专利样本数据形成测试 数据; 利用所述测试数据对所述神经网络CPC分类模型进行优化处理, 得到优化后的神经网 络CPC分类模型。 5.如权利要求1所述的专利数据的CPC分类方法, 其特征在于, 根据预设特征提取策略, 对每一部分的待分类的专利数据进行特征提取, 得到每一部分的待分类的专利数据对应的 特征向量, 包括: 根据词汇类特征的抽取策略, IP C类特征的选择策略, 以及输入特征的分区 分配策略, 对每一部分的待分类的专利数据进行特征提取, 得到每一部分的待分类的专利 数据对应的特 征向量。 6.如权利要求5所述的专利数据的CPC分类方法, 其特征在于, 所述词汇类特征的抽取 策略包括: 将来自专利的标题、 摘要和权利要求项技 术文本类内容的文本进行 特征抽取; 将动词或名词为主的关键词特征作为独立特征, 将不筛选词性的分词结果作为独立特 征; 将不同位置来源的特 征彼此独立。 7.一种专利数据的CPC分类装置, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 114579749 A 2获取单元, 用于获取待分类的专利数据; 拆分单元, 用于将待分类的专利数据拆分为多个部分, 得到多个部分的待分类的专利 数据; 特征向量化单元, 用于根据预设特征提取策略, 对每一部分的待分类的专利数据进行 特征提取, 得到每一部分的待分类的专利数据对应的特 征向量; 预测单元, 用于将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经 网络CPC分类模型的多个 分类子模 型中, 得到专利数据的多个CP C分类子结果; 根据多个CP C 分类子结果预测得到最 终的CPC分类结果; 所述神经网络CPC 分类模型根据多个历史专利样 本数据预 先训练生成, 所述神经网络 CPC分类模型包括多个分类子模型。 8.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至6任一所述方 法。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序被处 理器执行时实现权利要求1至 6任一所述方法。 10.一种计算机程序产品, 其特征在于, 所述计算机程序产品包括计算机程序, 所述计 算机程序被处 理器执行时实现权利要求1至 6任一所述方法。权 利 要 求 书 2/2 页 3 CN 114579749 A 3

.PDF文档 专利 专利数据的CPC分类方法及装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 专利数据的CPC分类方法及装置 第 1 页 专利 专利数据的CPC分类方法及装置 第 2 页 专利 专利数据的CPC分类方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:55:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。