全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210001457.9 (22)申请日 2022.01.04 (71)申请人 广东省第二人民医院 (广东省卫 生 应急医院) 地址 510317 广东省广州市海珠区新港中 路466号大院 (72)发明人 田军章 欧志文 罗焕泉 张颖  (74)专利代理 机构 杭州恒翌专利代理事务所 (特殊普通 合伙) 33298 代理人 柯奇君 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/28(2019.01) G06F 40/211(2020.01) G06F 40/295(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于大数据的用户数据处 理系统 (57)摘要 本发明涉及数据处理, 提供一种基于大数据 的用户处理系统, 所述系统包括数据服务器和用 户终端。 通过建立医疗服务器中对现有的神经网 络的特征提取做改进, 在特征提取中进行分段特 征提取, 完成对于语句信息的多特征提取, 满足 短距离和远距离的语句信息的提取, 同时对训练 语料提供加权处理和对用户输入进行分类处理, 能够在提升用户查询效率 提升了用户体验。 权利要求书1页 说明书6页 附图1页 CN 114328973 A 2022.04.12 CN 114328973 A 1.一种基于大数据的用户处理系统, 其特征在于: 所述系统包括数据服务器和用户终 端, 所述数据服务器与多个用户终端执行连接;  数据服务器用于对用户数据进行预处理, 所述预处理包括将各医疗机构的数据 做知识图谱结构数据存储; 所述知识图谱存储采用三 元组形式进行存储; 构建知识图谱的关系 数据库和图数据库, 所述关系 数据库采用结构化 查询语言SQ L, 所述图数据库采用标准 化查询语言S PARQL; 所述数据服 务器为用户的用户终端提供访问的接口并接收所述用户的查询输入; 所述数据服务器, 对用户的查询请求执行分类处理, 对查询的语句进行关键词和主题 匹配, 所述在获取关键词和主题匹配时候, 获取用户查询的位置和时间信息; 将所述位置和 时间信息作为辅助信息提供给数据查询服务器; 其中, 所述位置信息和时间信息用于辅助 提取用户的历史询问或历史诊疗信息 。 2.如权利要求1所述的系统, 其特征在于: 所述数据服务器, 对用户的查询请求进行关 键词提取, 对所述语句的不同实体做嵌入词输入, 通过选择性地词嵌入以表达词语之间的 相关性; 对距离较远的语句的含义, 通过在句子级别特征中使用卷积神经网络, 将所有的局 部特征和提取句子中远距离的语法信息; 最后生成句子级别的特 征向量。 3.如权利要求2所述的系统, 其特征在于: 所述卷积神经网络包括输入层、 特征提取池 化层和分类操作层。 4.如权利要求3所述的系统, 其特征在于: 所述数据服务器在卷积神经网络的特征提取 池化层中, 对卷积后的特征向量再次进行分段, 根据原始数据句子中实体A和实体B的位置 将其分成三段, 然后对每段分别进行最大池化操作, 最后再对三段的特征数值进行维度相 加, 利用三个数值 来代表一个句子的向量 化表示。 5.如权利要求4所述的系统, 其特征在于: 所述数据服务器在进行关系分类时会在词嵌 入层面为其加上每 个词的位置信息 。 6.如权利要求5所述的系统, 其特征在于: 所述数据服务器对于选取的卷积神经网络信 息, 对其训练数据采用注意机制, 给不同的语料赋予不同的权重, 减轻错误标签值的负面影 响, 以此来 提升分类 器的性能。 7.如权利要求6所述的系统, 其特在于: 所述权重值的获得是基于误差平方和最小为原 则求解。 8.如权利要求6所述的系统, 其特征在于: 所述卷积神经网络中基于权重值的获取, 具 体是基于拉格朗日系数求 解。 9.如权利要求8所述的系 统, 其特征在于: 所述卷积神经网络是CNN, BP神经网络, 或支 持半监督学习的神经网络 。 10.如权利要求1 ‑9任一所述的系统, 其特征在于: 所述三元组格 式是采用, 主, 谓, 宾的 方式来描述语句信息, 所述嵌入信息是根据前后上 下文语境执 行的。权 利 要 求 书 1/1 页 2 CN 114328973 A 2一种基于大数据的用户数据处理系统 技术领域 [0001]本发明涉及医疗数据处理领域, 特别涉及基于大数据的用户医疗类数据的处理系 统和方法。 背景技术 [0002]随着医院医疗信息化逐步完善, 医疗信息基本上通过相关公司的医疗硬件采集、 软件同步或用户自己填写的方式收集和储存 (云端或本地) 用户对应的医疗信息, 但是目前 存在各种医疗信息来源的途径不一, 数据存储格式等比较分散, 且用户可能在多个医疗硬 件、 软件上产生过相应的医疗信息, 各类医疗信息很分散, 不利于后期的数据处理和检索。 同时对于医疗数据库中的大量病历等数据, 缺乏充分的利用, 没有对其进 行归类和训练, 而 目前的网页上的医疗知识的问答等, 都存在信息零散化, 不够系统, 医患之 间基于专业知识 背景的差异, 两者的问题数据的不够精准。 目前的医疗问诊过于针对一对一, 无法向普通咨 询用户提供精准 化的导诊类的医疗数据应答。 发明内容 [0003]为解决上述问题之一, 本发明提出了基于大数据的用户数据处理方法, 所述系统 包括: 数据服务器用于对用户数据进行预处理, 所述预处理包括将 所述各机构的数据做 知识图谱结构数据存储; 所述知识图谱存储采用三元组形式进行存储; 构建知识图谱的关 系数据库和图数据库, 所述关系数据库采用结构化查询语言SQL, 所述图数据库采用标准化 查询语言S PARQL; 所述数据服 务器用户提供访问的接口并接收所述用户的查询输入; 所述数据服务器, 对用户的查询请求执行分类处理, 对查询的语句进行关键词和 主题匹配, 所述在获取关键词和主题匹配时候, 获取用户查询的位置和时间信息; 将所述位 置和时间信息作为辅助信息提供给数据查询服务器; 其中, 所述位置信息和时间信息用于 辅助提取用户的历史询问或历史诊疗信息 。 [0004]所述数据服务器, 对用户的查询请求进行关键词提取, 对所述语句的不 同实体做 嵌入词输入, 通过选择性地词嵌入以表达词语之间的相关性; 对距离较远的语句的含义, 通 过在句子级别特征中使用卷积神经网络, 将所有的局部特征、 提取句 子中远距离的语法信 息; 最后生成句子级别的特 征向量。 [0005]可选的, 所述卷积神经网络包括输入层、 特 征提取池化层和分类操作层; 可选的, 在卷积神经网络 的特征提取池化层中, 对卷积后的特征向量再次进行分 段, 根据原始数据句 子中实体A和实体B的位置将其分成三段, 然后对每段分别进行最大池 化操作, 最后再对三段的特征数值进行维度相加, 利用三个数值来代表一个句 子的向量化 表示。 [0006]可选的, 在进行关系分类时会在词嵌入层面 为其加上每 个词的位置信息 。说 明 书 1/6 页 3 CN 114328973 A 3

.PDF文档 专利 一种基于大数据的用户数据处理系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于大数据的用户数据处理系统 第 1 页 专利 一种基于大数据的用户数据处理系统 第 2 页 专利 一种基于大数据的用户数据处理系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。