(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210463888.7
(22)申请日 2022.04.29
(65)同一申请的已公布的文献号
申请公布号 CN 114582470 A
(43)申请公布日 2022.06.03
(73)专利权人 合肥综合 性国家科 学中心人工智
能研究院 (安徽省人工智能实验
室)
地址 230094 安徽省合肥市蜀山区望江西
路5089号, 中国科学技术大学先进技
术研究院未来中心B120 5-B1208
(72)发明人 汤进 李传富 赵海峰
(74)专利代理 机构 上海汉之律师事务所 31378
专利代理师 冯华(51)Int.Cl.
G16H 30/40(2018.01)
G06F 16/33(2019.01)
G06F 16/36(2019.01)
G06T 7/00(2017.01)
G06V 10/94(2022.01)
G06V 10/764(2022.01)
G06K 9/62(2022.01)
G16H 15/00(2018.01)
(56)对比文件
WO 2021198766 A1,2021.10.07
CN 112541066 A,2021.0 3.23
审查员 陈敏
(54)发明名称
一种模型的训练方法、 训练装置及医学影像
报告标注方法
(57)摘要
本发明公开一种标注模 型训练方法、 训练装
置及医学影像报告标注方法, 该标注模型训练方
法包括获取标注数据集, 标注数据集包括若干标
注数据, 标注数据包括医学影像报告数据及其病
变标签, 其中, 医学影像报告数据的病变标签是
根据读片知识 图谱中的预选级节点对医学影像
报告数据进行标注后的病变类别; 利用标注数据
集对文本多标签 分类模型进行训练, 以获取医学
影像报告标注模型; 其中, 文本多标签分类模型
是以读片知识 图谱中的预选级节点作为文本多
标签分类模 型的病变标签。 本发 明能够解决现有
的医学影像报告标注中无法解决嵌套、 非连续、
叙述不统一等导致标注质量差, 很难直接用于深
度学习模型的训练的技 术问题。
权利要求书3页 说明书10页 附图5页
CN 114582470 B
2022.09.09
CN 114582470 B
1.一种医学影 像报告标注模型训练方法, 其特 征在于, 包括:
获取标注数据集, 所述标注数据集包括若干标注数据, 所述标注数据包括医学影像报
告数据及所述医学影像报告数据的病变标签, 其中, 所述医学影像报告数据的病变标签是
根据读片知识图谱中的预选级节点对所述医学影像报告数据进行标注后的病变类别, 所述
医学影像报告数据包括检查所 见或检查印象;
利用所述标注数据集对文本多标签分类模型进行训练, 以获取医学影像报告标注模
型; 其中, 所述文本多标签分类模型是以所述读片知识图谱中的所述预选级节点作为所述
文本多标签分类模型的标签, 所述医学影像报告标注模型用于对目标医学影像报告数据进
行病变分类处理, 以得到所述 目标医学影像报告数据的病变类别, 作为所述 目标医学影像
报告数据的病变标签;
所述利用所述标注数据集对文本多标签分类模型进行训练, 以获取医学影像报告标注
模型中, 所述文本多标签分类模型包括文本特征提取器和分类器, 所述文本特征提取器为
预训练BERT模型, 所述分类器是根据所述读片知识图谱的指导进行构建, 得到的病变分类
结果对应所述读片知识图谱上的所述预选级节点;
所述利用所述标注数据集对文本多标签分类模型进行训练, 以获取医学影像报告标注
模型包括:
利用所述预训练BERT模型对所述医学影像报告数据进行编码处理, 以得到文本特征向
量;
利用所述分类器对得到的所述文本特征向量进行病变分类处理, 并输出多个病变类别
的预测结果;
根据所述多个病变 类别的预测结果, 使用交叉熵函数计算模型平均损失值;
根据所述模型平均损失值来更新所述预训练BERT模型和所述分类器的参数, 以得到 医
学影像报告标注模型;
所述利用所述分类器对得到的所述文本特征向量进行病变分类处理, 并输出多个病变
类别的预测结果包括:
所述分类器利用多层感知机将得到的所述文本特征向量映射到分类类别数的映射向
量; 其中, 所述分类类别数等于所述读片知识图谱中所述预选级节 点的个数, 所述文本特征
向量的维数 大于所述映射向量的维数, 所述映射向量的维数等于所述分类 类别数;
利用Sigmoid函数将所述映射向量归一化成介于0和1之间的概率形式, 以输出每种病
变类别的概 率。
2.根据权利要求1所述的医学影像报告标注模型训练方法, 其特征在于, 利用所述标注
数据集对文本多标签分类模型进行训练, 以获取医学影像报告标注模型包括, 对所述标注
数据集进行数据增强, 并用数据增强后的所述标注数据集对文本多标签分类模型进行训
练, 以获取 所述医学影 像报告标注模型;
其中, 所述对所述标注数据集进行增强处 理, 包括:
统计所述标注数据集中病变标签的分布情况, 以获得每种病变标签所对应的所述标注
数据的数量;
选取病变标签所对应的所述标注数据的数量少于预设数量的病变标签;
对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行数据增强权 利 要 求 书 1/3 页
2
CN 114582470 B
2以产生新的标注数据, 以对所述标注数据集进行扩充, 以使扩充后的所述标注数据集中每
种病变标签所对应的标准数据的数量 不少于所述预设数量。
3.根据权利要求2所述的医学影像报告标注模型训练方法, 其特征在于, 所述对选取的
病变标签所对应的所述标注数据中的所述医学影像报告数据进行数据增强以产生新的标
注数据包括:
对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行同义词替
换以产生 新的标注数据; 和/或
对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行回译以产
生新的标注数据; 和/或
对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行近音字替
换以产生 新的标注数据。
4.一种医学影 像报告标注模型训练装置, 其特 征在于, 包括:
数据获取模块, 用于获取标注数据集, 所述标注数据集包括若干标注数据, 所述标注数
据包括医学影像报告数据及所述医学影像报告数据的病变标签, 其中, 所述医学影像报告
数据的病变标签是根据读片知识图谱中的预选级节点对所述医学影像报告数据进行标注
后的病变 类别, 所述医学影 像报告数据包括检查所 见或检查印象;
模型训练模块, 用于利用所述标注数据集对文本多标签分类模型进行训练, 以获取医
学影像报告标注模型; 其中, 所述文本多标签分类模型是以所述读片知识图谱中的所述预
选级节点作为所述文本多标签分类模型的标签, 所述医学影像报告标注模 型用于对目标医
学影像报告数据进行病变分类处理, 以得到所述 目标医学影像报告数据的病变类别, 作为
所述目标医学影 像报告数据的病变标签;
其中, 所述利用所述标注数据集对文本多标签分类模型进行训练, 以获取医学影像报
告标注模型中, 所述文本多标签分类模型包括文本特征提取器和分类器, 所述文本特征提
取器为预训练BERT模型, 所述分类器是根据所述读片知识图谱的指导进行构建, 得到的病
变分类结果对应所述读片知识图谱上的所述预选级节点;
所述利用所述标注数据集对文本多标签分类模型进行训练, 以获取医学影像报告标注
模型包括:
利用所述预训练BERT模型对所述医学影像报告数据进行编码处理, 以得到文本特征向
量;
利用所述分类器对得到的所述文本特征向量进行病变分类处理, 并输出多个病变类别
的预测结果;
根据所述多个病变 类别的预测结果, 使用交叉熵函数计算模型平均损失值;
根据所述模型平均损失值来更新所述预训练BERT模型和所述分类器的参数, 以得到 医
学影像报告标注模型;
所述利用所述分类器对得到的所述文本特征向量进行病变分类处理, 并输出多个病变
类别的预测结果包括:
所述分类器利用多层感知机将得到的所述文本特征向量映射到分类类别数的映射向
量; 其中, 所述分类类别数等于所述读片知识图谱中所述预选级节 点的个数, 所述文本特征
向量的维数 大于所述映射向量的维数, 所述映射向量的维数等于所述分类 类别数;权 利 要 求 书 2/3 页
3
CN 114582470 B
3
专利 一种模型的训练方法、训练装置及医学影像报告标注方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:55:22上传分享