全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210025701.5 (22)申请日 2022.01.11 (71)申请人 上海芯化和云数据科技有限公司 地址 201800 上海市嘉定区安亭镇墨玉路 185号1层JT373 6室 (72)发明人 田胜伟 李浩林  (74)专利代理 机构 北京世誉鑫诚专利代理有限 公司 11368 代理人 李世端 (51)Int.Cl. G06F 40/284(2020.01) G06F 16/335(2019.01) G06F 16/33(2019.01) G06F 16/36(2019.01) (54)发明名称 一种基于自然语言处理的化学品竞品选择 方法 (57)摘要 本发明提供的一种基于自然语言处理的化 学品竞品选择方法, 所述选择方法包括: 构建化 学品关键基团名称数据集, 包括: 无效字符集、 可 触达化学品名称集; 获取新化学品名称; 所述化 学品名称分词器对所述新化学品名称进行分词, 获得分词结果; 过滤所述分词结果中的所述无效 字 符 集 ,获 得 有 效 分 词 结 果 ;基 于 TfidfVectorizer, 化学品与所述可触达化学品 名库构建化学品名词向量空间; 计算所述化学品 名词向量空间与所述新化学品名 称间的三角余 弦函数值, 并将所述余弦函数值按降序进行排 列; 对各区间进行抽样选择, 返回抽样结果对应 的化学品关键基团名称数据集。 能够在0.5秒内 给出准确的化学品名参考, 且满足专业人员对参 考产品名的选择要求。 权利要求书2页 说明书4页 附图2页 CN 114357999 A 2022.04.15 CN 114357999 A 1.一种基于自然语言处 理的化学品竞品选择 方法, 其特 征在于, 所述选择 方法包括: 构建化学品关键基团名称数据集, 包括: 无效字符集、 可触达化学品名称集; 根据所述化学品关键基团名称数据集基于jieba分词构建化学品名称分词器和化学品 名称无效字符过 滤器; 获取新化学品名称; 所述化学品名称分词器对所述 新化学品名称进行分词, 获得分词结果; 过滤所述分词结果中的所述无效字符集, 获得有效分词结果; 基于TfidfVectorizer, 化学品与所述可触达化学品名库构建化学品名词向量空间; 计算所述化学品名词向量空间与 所述新化学品名称间的三角余弦函数值, 并将所述余 弦函数值按降序进行排列; 对各区间进行抽样选择, 返回抽样结果对应的化学品关键基团名称数据集。 2.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法, 其特征在于, 所述构建化学品关键基团名称数据集, 包括: 无效字符集、 可触达化学品名称集具体包括: 搜集化学品名中表示化学结构集团的字符, 获得多种化学结构基团名称, 保存至化学 品基团数据库; 搜集常用文本表达中的语气助词, 并保存至无效字符集; 搜集化学品名称中用于标记基团位置词, 并保存至所述无效字符集; 搜集满足每周均可获得价格数据的化学品名称, 保存至可触达化学品名称集。 3.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法, 其特征在于, 所述根据所述化学品关键基团名 称数据集基于jieba分词构建化学品名 称分词器具体包 括: 抽取所述化学品关键基团名称数据集中的基团名称保存至基团字典; 利用jieba分词的 “自定义词典 ”, 建立分词模型, 作为 化学品名称分词器。 4.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法, 其特征在于, 所述根据所述化学品关键基团名称数据集基于jieba分词构建化学品名称无效字符过滤器 具体包括: 抽取无效字符库中的字符, 保存为无效字符词典; 利用编码程序, 读取 无效字符词典, 编辑 为无效字符过 滤器。 5.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法, 其特征在于, 所述化学品名称分词器对所述 新化学品名称进行分词, 获得分词结果具体包括: 利用所述 化学品名称分词器对所述 新化学品名称进行分词操作; 收集分词后的结果 集合, 获得分词结果。 6.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法, 其特征在于, 所述过滤所述分词结果中的无效字符, 获得有效分词结果具体包括: 无效字符过滤器去 除分词结果集合中的无效字符, 保存为新化学品分词序列, 获得有 效分词结果。 7.根据权利要求6所述的一种基于自然语言处理的化学品竞品选择方法, 其特征在于, 所述基于TfidfVectorizer, 化学品与可触达化学品名库构建化学品名词向量空间具体包 括:权 利 要 求 书 1/2 页 2 CN 114357999 A 2从所述可触达化学品名库提取产品名称, 保存为可触达产品字典; 利用所述化学品名称分词器对所述可触达产品字典中的产品名称进行分词, 将分词结 果保存为可触达分词序列; 利用所述无效字符过滤器去除所述可触达分词序列中的无效字符, 并保存为新可触达 分词序列; 利用TfidfVectorizer算法将所述新可触达分词序列和所述新化学品分词序列分布至 化学品名词向量空间。 8.根据权利要求7所述的一种基于自然语言处理的化学品竞品选择方法, 其特征在于, 所述计算所述化学品名词向量空间与所述新化学品名称间的三角余弦函数值, 并将所述余 弦函数值按降序进行排列具体包括: 获取各个化学品名在TfidfVectorizer词向量空间中的坐标值(x, y); 使用公式 计算所述新化学品分词序列与所述可触达分 词序列词向量间的相似性数值; 保留词向量序号与词向量相似值组成数值列表; 将所述数值列表中的词向量相似值按照降序排列。 9.根据权利要求8所述的一种基于自然语言处理的化学品竞品选择方法, 其特征在于, 所述对各区间进行抽样选择, 返回抽样结果对应的化学品关键基团名称数据集具体包括: 获取词向量相似值大于 0.5对应的词向量序号1到 5个; 获取词向量相似值小于 0.5对应的词向量序号0 到2个; 根据取出的所述词向量序号 提取可触达化学品名, 并组成可触达化学品名字典; 将所述可触达化学品名字典保存为文本文档。权 利 要 求 书 2/2 页 3 CN 114357999 A 3

.PDF文档 专利 一种基于自然语言处理的化学品竞品选择方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自然语言处理的化学品竞品选择方法 第 1 页 专利 一种基于自然语言处理的化学品竞品选择方法 第 2 页 专利 一种基于自然语言处理的化学品竞品选择方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。