全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211261165.5 (22)申请日 2022.10.14 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融街31号 (72)发明人 郭子滔 冉猛 危枫 张蕾  梁晓东 王晨子  (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 专利代理师 董文倩 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本特征的分析方法、 装置、 存储介质及电 子设备 (57)摘要 本申请公开了一种文本特征的分析方法、 装 置、 存储介质及电子设备。 其中, 该方法包括: 输 入待识别文本数据至会话类型分类模 型, 得到待 识别文本数据对应的标签, 其中, 标签用于指示 待识别文本对应的会话类型; 将标签与待识别文 本数据进行合并得到合并文本数据, 并采用特征 词抽取模型对合并文本数据进行特征提取, 得到 合并文本数据对应的特征词; 展示标签与特征 词。 本申请解决了由于只关注文本分类或只关注 文本实体抽取造成的无法有效地提取和分析文 本的技术问题。 权利要求书2页 说明书14页 附图5页 CN 115455963 A 2022.12.09 CN 115455963 A 1.一种文本特 征的分析 方法, 其特 征在于, 包括: 输入待识别文本数据至会话类型分类模型, 得到所述待识别文本数据对应的标签, 其 中, 所述标签用于指示所述待识别文本对应的会话类型; 将所述标签与 所述待识别文本数据进行合并得到合并文本数据, 并采用特征词抽取模 型对所述 合并文本数据进行 特征提取, 得到所述 合并文本数据对应的特 征词; 展示所述标签与所述特 征词。 2.根据权利要求1所述的分析方法, 其特征在于, 输入待识别文本数据至会话类型分类 模型, 得到所述待识别文本数据对应的标签, 包括: 对所述待识别文本数据进行分词, 得到第一有序词语列表; 确定所述第一有序词语列表中所属的各个预定会话类型对应的概 率值; 确定概率值最大的所述预定会话类型的标签为所述待识别文本数据对应的标签。 3.根据权利要求2所述的分析方法, 其特征在于, 将所述标签与 所述待识别文本数据进 行合并得到合并文本数据, 采用特征词抽取模型对所述合并文本数据进行特征提取, 得到 所述合并文本数据对应的特 征词, 包括: 将所述第一有序词语列表与所述标签进行融合, 得到第二有序词语列表; 将所述第二有序词语列表输入所述特征词抽取模型中进行特征词提取, 得到特征词集 合; 确定所述特 征词集合中各个元 素为所述特 征词。 4.根据权利要求3所述的分析方法, 其特征在于, 将所述第 二有序词语列表输入特征词 抽取模型中进行 特征词提取, 得到特 征词集合, 包括: 将所述第二有序词语列表投影到两个相同维度的第一张量与第二张量; 其中, 第一张 量, 第二张量分别用于表示所述第二有序词语列表在两个不同向量空间上的投影; 根据所述第一张量与第二张量的转置矩阵的乘积得到交 互矩阵; 基于所述交 互矩阵确定所述特 征词集合。 5.根据权利要求4所述的分析方法, 其特征在于, 基于所述交互矩阵确定所述特征词集 合, 包括: 调用压缩函数对所述交 互矩阵进行压缩变换, 得到所述交 互矩阵对应的概 率矩阵; 筛选出所述概率矩阵中大于预设阈值的目标概 率值; 确定所述目标概 率值对应的特 征词为所述特 征词集合中的元 素。 6.根据权利要求5所述的分析方法, 其特征在于, 确定所述目标概率值对应的特征词为 所述特征词集合中的元 素, 包括: 获取所述目标概率值在所述概率矩阵中的行和列对应的字, 根据 行与列的对应关系得 到词语组合, 确定所述词语组合 为所述特 征词集合中的元 素。 7.根据权利要求1所述的分析方法, 其特征在于, 将所述标签与 所述待识别文本数据进 行合并得到合并文本数据, 包括: 将标签与预定标签集 合进行比较, 其中, 所述预定标签集 合用于指示可丢弃的标签; 在所述标签不属于所述预定标签集合的情况下, 将所述待识别文本数据与 所述标签进 行合并, 得到所述 合并文本数据。 8.根据权利要求7所述的分析方法, 其特征在于, 在所述标签属于所述预定标签集合的权 利 要 求 书 1/2 页 2 CN 115455963 A 2情况下, 输出预设信息, 其中, 所述预设信息用于指示所述待识别文本数据不存在有效信 息。 9.一种文本特 征的分析装置, 其特 征在于, 包括: 识别标签模块, 用于输入待识别文本数据至会话类型分类模型, 得到所述待识别文本 数据对应的标签, 其中, 所述标签用于指示所述待识别文本对应的会话类型; 提取模块, 用于将所述标签与所述待识别文本数据进行合并得到合并文本数据, 并采 用特征词抽取模型对所述合并文本数据进 行特征提取, 得到所述合并文本数据对应的特征 词; 展示模块, 用于展示所述标签与所述特 征词。 10.一种非易失性存储介质, 其特征在于, 所述存储介质包括存储的程序, 其中, 在所述 程序运行时控制所述存储介质所在设备执行权利要求1至8 中任意一项所述文本特征 的分 析方法。 11.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述指令, 以实现如权利要求1至8中任一项所述的文 本特征的分析 方法。权 利 要 求 书 2/2 页 3 CN 115455963 A 3

PDF文档 专利 文本特征的分析方法、装置、存储介质及电子设备

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本特征的分析方法、装置、存储介质及电子设备 第 1 页 专利 文本特征的分析方法、装置、存储介质及电子设备 第 2 页 专利 文本特征的分析方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。