专利一种基于伪标签的二分类标签数据优化方法、设备及介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111663474.0 (22)申请日 2021.12.3 0 (71)申请人神思电子技术股份有限公司地址 250101 山东省济南市高新区舜华西路699号 (72)发明人陈英鹏　许野平　刘辰飞　张朝瑞　席道亮　高朋　 (74)专利代理机构济南千慧专利事务所(普通合伙企业) 37232 代理人孟令鲁 (51)Int.Cl. G06K 17/00(2006.01) G06K 9/62(2022.01) (54)发明名称一种基于伪标签的二分类标签数据优化方法、设备及介质 (57)摘要本申请公开了一种基于伪标签的二分类标签数据优化方法、设备及介质，用于解决如下技术问题：如何基于伪标签技术，有效识别二分类标签数据中的误标签数据。方法包括：将待优化二分类标签数据集划分为预设数量个优化集；基于预设数量个优化集，确定预设数量个训练集，并对待训练模型进行训练，以获得预设数量个初始模型；通过预设数量个初始模型，分别对对应的相应优化集进行验证，以确定相应优化集中各二分类标签数据的类型预测得分；其中，相应优化集为训练得到该初始模型时没有采用的优化集；基于类型预测得分，通过预设的评估规则，确定对应的二分类标签数据是否为误标签数据。本申请通过上述方法可以有效的识别二分类标签数据中的误标签数据。权利要求书2页说明书7页附图1页 CN 114330618 A 2022.04.12 CN 114330618 A 1.一种基于伪标签的二分类标签数据优化方法，其特征在于，所述方法包括：将待优化二分类标签数据集划分为预设数量个优化集；基于所述预设数量个优化集，确定预设数量个训练集，并对待训练模型进行训练，以获得预设数量个初始模型；其中，所述训练集包含预设数量减一个优化集；通过所述预设数量个初始模型，分别对对应的相应优化集进行验证，以确定所述相应优化集中各二分类标签数据的类型预测得分；其中，所述相应优化集为训练得到该初始模型时没有采用的优化集；基于所述类型预测得分，通过预设的评估规则，确定对应的二分类标签数据是否为误标签数据。 2.根据权利要求1所述的一种基于伪标签的二分类标签数据优化方法，其特征在于，基于所述类型预测得分，通过预设的评估规则，确定对应的二分类标签数据是否为误标签数据，具体包括：基于所述类型预测得分及预设的得分分类阈值，为所述二分类标签数据生成一个伪标签；其中，所述伪标签为二分类标签；判断所述伪标签与所述二分类标签数据的标签是否相同；在所述伪标签与所述二分类标签数据的标签不同的情况下，基于预设的第一标签得分偏差阈值与第二标签得分偏差阈值，确定所述二分类标签数据是否为误标签数据。 3.根据权利要求2所述的一种基于伪标签的二分类标签数据优化方法，其特征在于，基于所述类型预测得分及预设的得分分类阈值，为所述二分类标签数据生成一个伪标签，具体包括：确定所述类型预测得分是否小于所述得分分类阈值；在所述类型预测得分小于所述得分分类阈值的情况下，为所述二分类标签数据生成一个第一标签类型的伪标签；其中，所述第一标签类型为“0”标签；在所述类型预测得分不小于所述得分分类阈值的情况下，为所述二分类标签数据生成一个第二标签类型的伪标签；其中，所述第二标签类型为“1”标签。 4.根据权利要求2所述的一种基于伪标签的二分类标签数据优化方法，其特征在于，基于预设的第一标签得分偏差阈值与第二标签得分偏差阈值，确定所述二分类标签数据是否为误标签数据，具体包括：在所述二分类标签数据的标签为第一标签类型，所述伪标签为第二标签类型的情况下，若所述类型预测得分大于所述第一标签得分偏差阈值，则确定所述二分类标签数据为误标签数据；在所述二分类标签数据的标签为第二标签类型，所述伪标签为第一标签类型的情况下，若所述类型预测得分小于所述第二标签得分偏差阈值，则确定所述二分类标签数据为误标签数据。 5.根据权利要求1所述的一种基于伪标签的二分类标签数据优化方法，其特征在于，将待优化二分类标签数据集划分为预设数量个优化集，具体包括：确定所述待优化二分类标签数据集中第一标签类型数据对应的第一数量与第二标签类型数据对应的第二数量，并确定所述第一数量与所述第二数量的差值的绝对值是否小于第一预设阈值；权　利　要　求　书 1/2 页 2 CN 114330618 A 2在确定所述第一数量与所述第二数量的差值的绝对值小于第一预设阈值的情况下，将所述待优化二分类标签数据集划分为标签数据的数量相等的预设数量个优化集；其中，所述优化集中第一标签数据的第三数量与所述第二标签数据的第四数量的差值的绝对值小于第二预设阈值。 6.根据权利要求5所述的一种基于伪标签的二分类标签数据优化方法，其特征在于，所述方法还包括：在确定所述第一数量与所述第二数量的差值的绝对值不小于第一预设阈值的情况下，调整所述待优化二分类标签数据集中第一标签类型数据的数量，或调整所述待优化二分类标签数据集中第二标签类型数据的数量，以使所述第一标签类型数据对应的第一数量与第二标签类型数据对应的第二数量差值的绝对值小于第一预设阈值。 7.根据权利要求1所述一种基于伪标签的二分类标签数据优化方法，其特征在于，基于所述预设数量个优化集，确定预设数量个训练集，具体包括：确定所述预设数量个优化集中的任意一个为优化集为所述相应优化集，将除所述相应优化集之外的其他优化集组成对应该相应优化集的训练集；遍历所述预设数量个优化集，以获得对应各优化集的预设数量个训练集。 8.根据权利要求1所述的一种基于伪标签的二分类标签数据优化方法，其特征在于，在对待训练模型进行训练之前，所述方法还包括：在所述待训练模型中添加验证模块，以使经训练获得的初始模型，可以在对相应优化集进行验证时，确定各二分类标签数据的类型预测得分。 9.一种基于伪标签的二分类标签数据优化设备，其特征在于，所述设备包括：处理器；及存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1 ‑8任一项所述的一种方法。 10.一种基于伪标签的二分类标签数据优化的非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：将待优化二分类标签数据集划分为预设数量个优化集；基于所述预设数量个优化集，确定预设数量个训练集，并对待训练模型进行训练，以获得预设数量个初始模型；其中，所述训练集包含预设数量减一个优化集；通过所述预设数量个初始模型，分别对对应的相应优化集进行验证，以确定所述相应优化集中各二分类标签数据的类型预测得分；其中，所述相应优化集为训练得到该初始模型时没有采用的优化集；基于所述类型预测得分，通过预设的评估规则，确定对应的二分类标签数据是否为误标签数据。权　利　要　求　书 2/2 页 3 CN 114330618 A 3

专利 一种基于伪标签的二分类标签数据优化方法、设备及介质

专利一种基于伪标签的二分类标签数据优化方法、设备及介质