专利 一种模型的训练方法、训练装置及医学影像报告标注方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210463888.7 (22)申请日 2022.04.29 (65)同一申请的已公布的文献号申请公布号 CN 114582470 A (43)申请公布日 2022.06.03 (73)专利权人合肥综合性国家科学中心人工智能研究院（安徽省人工智能实验室）地址 230094 安徽省合肥市蜀山区望江西路5089号，中国科学技术大学先进技术研究院未来中心B120 5-B1208 (72)发明人汤进　李传富　赵海峰　 (74)专利代理机构上海汉之律师事务所 31378 专利代理师冯华(51)Int.Cl. G16H 30/40(2018.01) G06F 16/33(2019.01) G06F 16/36(2019.01) G06T 7/00(2017.01) G06V 10/94(2022.01) G06V 10/764(2022.01) G06K 9/62(2022.01) G16H 15/00(2018.01) (56)对比文件 WO 2021198766 A1,2021.10.07 CN 112541066 A,2021.0 3.23 审查员陈敏 (54)发明名称一种模型的训练方法、训练装置及医学影像报告标注方法 (57)摘要本发明公开一种标注模型训练方法、训练装置及医学影像报告标注方法，该标注模型训练方法包括获取标注数据集，标注数据集包括若干标注数据，标注数据包括医学影像报告数据及其病变标签，其中，医学影像报告数据的病变标签是根据读片知识图谱中的预选级节点对医学影像报告数据进行标注后的病变类别；利用标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型；其中，文本多标签分类模型是以读片知识图谱中的预选级节点作为文本多标签分类模型的病变标签。本发明能够解决现有的医学影像报告标注中无法解决嵌套、非连续、叙述不统一等导致标注质量差，很难直接用于深度学习模型的训练的技术问题。权利要求书3页说明书10页附图5页 CN 114582470 B 2022.09.09 CN 114582470 B 1.一种医学影像报告标注模型训练方法，其特征在于，包括：获取标注数据集，所述标注数据集包括若干标注数据，所述标注数据包括医学影像报告数据及所述医学影像报告数据的病变标签，其中，所述医学影像报告数据的病变标签是根据读片知识图谱中的预选级节点对所述医学影像报告数据进行标注后的病变类别，所述医学影像报告数据包括检查所见或检查印象；利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型；其中，所述文本多标签分类模型是以所述读片知识图谱中的所述预选级节点作为所述文本多标签分类模型的标签，所述医学影像报告标注模型用于对目标医学影像报告数据进行病变分类处理，以得到所述目标医学影像报告数据的病变类别，作为所述目标医学影像报告数据的病变标签；所述利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型中，所述文本多标签分类模型包括文本特征提取器和分类器，所述文本特征提取器为预训练BERT模型，所述分类器是根据所述读片知识图谱的指导进行构建，得到的病变分类结果对应所述读片知识图谱上的所述预选级节点；所述利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型包括：利用所述预训练BERT模型对所述医学影像报告数据进行编码处理，以得到文本特征向量；利用所述分类器对得到的所述文本特征向量进行病变分类处理，并输出多个病变类别的预测结果；根据所述多个病变类别的预测结果，使用交叉熵函数计算模型平均损失值；根据所述模型平均损失值来更新所述预训练BERT模型和所述分类器的参数，以得到医学影像报告标注模型；所述利用所述分类器对得到的所述文本特征向量进行病变分类处理，并输出多个病变类别的预测结果包括：所述分类器利用多层感知机将得到的所述文本特征向量映射到分类类别数的映射向量；其中，所述分类类别数等于所述读片知识图谱中所述预选级节点的个数，所述文本特征向量的维数大于所述映射向量的维数，所述映射向量的维数等于所述分类类别数；利用Sigmoid函数将所述映射向量归一化成介于0和1之间的概率形式，以输出每种病变类别的概率。 2.根据权利要求1所述的医学影像报告标注模型训练方法，其特征在于，利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型包括，对所述标注数据集进行数据增强，并用数据增强后的所述标注数据集对文本多标签分类模型进行训练，以获取所述医学影像报告标注模型；其中，所述对所述标注数据集进行增强处理，包括：统计所述标注数据集中病变标签的分布情况，以获得每种病变标签所对应的所述标注数据的数量；选取病变标签所对应的所述标注数据的数量少于预设数量的病变标签；对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行数据增强权　利　要　求　书 1/3 页 2 CN 114582470 B 2以产生新的标注数据，以对所述标注数据集进行扩充，以使扩充后的所述标注数据集中每种病变标签所对应的标准数据的数量不少于所述预设数量。 3.根据权利要求2所述的医学影像报告标注模型训练方法，其特征在于，所述对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行数据增强以产生新的标注数据包括：对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行同义词替换以产生新的标注数据；和/或对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行回译以产生新的标注数据；和/或对选取的病变标签所对应的所述标注数据中的所述医学影像报告数据进行近音字替换以产生新的标注数据。 4.一种医学影像报告标注模型训练装置，其特征在于，包括：数据获取模块，用于获取标注数据集，所述标注数据集包括若干标注数据，所述标注数据包括医学影像报告数据及所述医学影像报告数据的病变标签，其中，所述医学影像报告数据的病变标签是根据读片知识图谱中的预选级节点对所述医学影像报告数据进行标注后的病变类别，所述医学影像报告数据包括检查所见或检查印象；模型训练模块，用于利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型；其中，所述文本多标签分类模型是以所述读片知识图谱中的所述预选级节点作为所述文本多标签分类模型的标签，所述医学影像报告标注模型用于对目标医学影像报告数据进行病变分类处理，以得到所述目标医学影像报告数据的病变类别，作为所述目标医学影像报告数据的病变标签；其中，所述利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型中，所述文本多标签分类模型包括文本特征提取器和分类器，所述文本特征提取器为预训练BERT模型，所述分类器是根据所述读片知识图谱的指导进行构建，得到的病变分类结果对应所述读片知识图谱上的所述预选级节点；所述利用所述标注数据集对文本多标签分类模型进行训练，以获取医学影像报告标注模型包括：利用所述预训练BERT模型对所述医学影像报告数据进行编码处理，以得到文本特征向量；利用所述分类器对得到的所述文本特征向量进行病变分类处理，并输出多个病变类别的预测结果；根据所述多个病变类别的预测结果，使用交叉熵函数计算模型平均损失值；根据所述模型平均损失值来更新所述预训练BERT模型和所述分类器的参数，以得到医学影像报告标注模型；所述利用所述分类器对得到的所述文本特征向量进行病变分类处理，并输出多个病变类别的预测结果包括：所述分类器利用多层感知机将得到的所述文本特征向量映射到分类类别数的映射向量；其中，所述分类类别数等于所述读片知识图谱中所述预选级节点的个数，所述文本特征向量的维数大于所述映射向量的维数，所述映射向量的维数等于所述分类类别数；权　利　要　求　书 2/3 页 3 CN 114582470 B 3

专利 一种模型的训练方法、训练装置及医学影像报告标注方法

专利一种模型的训练方法、训练装置及医学影像报告标注方法