全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210029619.X (22)申请日 2022.01.12 (65)同一申请的已公布的文献号 申请公布号 CN 114049966 A (43)申请公布日 2022.02.15 (73)专利权人 中国科学院计算机网络信息中心 地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人 张鹏 叶旭 崔文娟 杜一  (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 代理人 邱晓锋 (51)Int.Cl. G16H 50/70(2018.01) G06Q 10/04(2012.01)G06F 16/36(2019.01) 审查员 刘梦瑶 (54)发明名称 一种基于链接预测的食源性疾病暴发识别 方法和系统 (57)摘要 本发明涉及一种基于链接预测的食源性疾 病暴发识别方法和系统。 该方法包括: 对食源性 疾病暴发事件 数据进行数据处理; 对 数据处理之 后的病例数据进行采样, 得到正负样本对集合; 对正负样本对集合中的各个正负样本对进行特 征提取; 将特征提取后的正负样 本对输入基于神 经网络构建的链接预测模型, 以学习病例与病例 之间的关联关系; 根据链接预测模 型的输出构建 病例关系网络, 网络中的节点表示病例实体, 边 表示病例之间的关联关系, 边权值反映病例间关 联强度; 根据病例关系网络, 采用社区发现算法 得到食源性疾病暴发事件。 本发 明将传统聚类问 题转化为病例 间关联关系预测与图网络中社区 发现的问题, 从而取得了比传统聚类算法更好的 暴发事件识别效果。 权利要求书2页 说明书9页 附图3页 CN 114049966 B 2022.04.08 CN 114049966 B 1.一种基于链接预测的食 源性疾病暴发识别方法, 其特 征在于, 包括以下步骤: 对食源性疾病暴发事件数据进行数据处理, 获取暴发事件维度和病例维度的相关信 息; 对数据处 理之后的病例数据进行采样, 得到正负 样本对集 合; 对正负样本对集 合中的各个正负 样本对进行 特征提取; 将特征提取后的正负样本对输入基于神经网络构建的链接预测模型, 以学习病例与病 例之间的关联关系; 根据链接预测模型得到的病例与病例之间的关联关系构建病例关系网络, 病例关系网 络中的节点表示病例实体, 边表示病例之间的关联关系, 边权值反映病例间关联强度; 根据病例关系网络, 采用社区发现算法得到食 源性疾病暴发事 件; 所述对数据处 理之后的病例数据进行采样, 得到正负 样本对集 合, 包括: 采样的全集 为全体病例样本集, 由正采样与负采样组成; 正采样每次从同一暴发事件中采样两个病例作为一个病例对, 正采样病例对标签为1, 表示两个病例间联系密切, 属于同一 暴发事件; 负采样包含两种 采样方法, 第 一种采样方法每次从不属于任意暴发事件的病例 样本集 合中采样两个病例作为负样本对, 第二种采样方法每次从某一暴 发事件的病例集合以及不 属于任意暴 发事件的病例集合分别采样一个病例作为负样本对; 负采样的病例组合标签为 0, 表示两个病例间无 联系, 不属于同一 暴发事件; 所述对正负样本对集合中的各个正负样本对进行特征提取, 其提取的特征包括病例自 身基本信息特 征和病例的互特 征, 所述互特 征包含食品特征、 时间特 征、 空间特 征。 2.根据权利要求1所述的方法, 其特征在于, 所述获取暴发事件维度和病例维度的相关 信息, 其中暴 发事件维度包含病例编号、 病例数、 暴 发产生地点、 暴 发产生时间, 病例维度包 含病例基本信息、 进食信息、 病例症状、 初步诊断、 就诊时间。 3.根据权利要求1所述的方法, 其特征在于, 所述病例自身基本信 息特征包括患 者职业 代码、 初步诊断代码、 症状代码, 采用one ‑hot编码方法提取特征; 所述空间特征包括病例住 址、 食品购买地点和就餐地点, 将 字符串表示的地区和县转换为相应的纬度和经度坐标, 并 计算病例之间的欧氏距离; 所述时间特征包括进食时间、 发病时间和就诊时间, 将年、 月和 日格式的日期转换为时间戳, 使用差值来表示两病例间时间维度的差异; 所述食品特征包 括食物名称, 采用字符串匹配的思想, 提取食物名称的字符串的特征, 返回0 ‑100之间的值 表示两个字符串之间的相似程度, 取值越大, 相关性越高。 4.根据权利要求1所述的方法, 其特 征在于, 所述链接预测模型表示 为: x=concat([x1T,x2T,zT]) y=sigmo id(w2(w1x+b1)+b2) 其中, x是所述链接预测模型的输入, x1与x2分别为两个病例的病例自身基本信息特征, z为病例间的食品特征、 时间特征、 空间特征; w1,w2,b1,b2为神经网络模型参数, 在训练过程权 利 要 求 书 1/2 页 2 CN 114049966 B 2中通过梯度后向传播更新, y表示病例间存在联系的可 能性, y∈(0,1); 为经Baggin g方法 模型集成后最终的输出, N 为基模型总数, yi为第i个基模型。 5.根据权利要求1所述的方法, 其特征在于, 所述根据病例关系 网络, 采用社区发现算 法得到食源性疾病暴发事件, 是采用并查集算法得到食源性疾病暴发事件, 并应用路径压 缩与合并优化对所述并查集算法进行优化; 路径压缩是在查找父节点的操作时将父节点设 置为树的根节点从而限制树的深度; 合并优化是记录每个节点作为根节点时树的深度, 在 合并操作中将 深度较小的树 合并到深度较大的树, 从而 使树的结构更加合理。 6.一种采用权利要求1~5中任一权利要求所述方法的基于链接预测的食源性疾病暴 发识别系统, 其特 征在于, 包括: 数据处理模块, 用于对食源性疾病暴发事件数据进行数据处理, 获取暴发事件维度和 病例维度的相关信息; 病例样本采样模块, 用于对数据处 理之后的病例数据进行采样, 得到正负 样本对集 合; 特征提取模块, 用于对正负 样本对集 合中的各个正负 样本对进行 特征提取; 链接预测模块, 用于将特征提取后的正负样本对输入基于神经网络构建的链接预测模 型, 以学习 病例与病例之间的关联关系; 暴发生成模块, 用于根据链接预测模型得到的病例与病例之间的关联关系构建病例关 系网络, 病例关系网络中的节 点表示病例实体, 边表示病例之 间的关联关系, 边权值反映病 例间关联强度; 进 而根据病例关系网络, 采用社区发现算法得到食 源性疾病暴发事 件。 7.一种电子装置, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所 述计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求 1~5中 任一权利要求所述方法的指令 。 8.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机程序, 所述计算机程序被 计算机执 行时, 实现权利要求1~5中任一权利要求所述的方法。权 利 要 求 书 2/2 页 3 CN 114049966 B 3

.PDF文档 专利 一种基于链接预测的食源性疾病暴发识别方法和系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于链接预测的食源性疾病暴发识别方法和系统 第 1 页 专利 一种基于链接预测的食源性疾病暴发识别方法和系统 第 2 页 专利 一种基于链接预测的食源性疾病暴发识别方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。