专利旅客出行目的的分类方法、相关装置及计算机存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211012825.6 (22)申请日 2022.08.23 (71)申请人中国民航信息网络股份有限公司地址 100085 北京市顺义区后沙峪镇裕民大街7号 (72)发明人陈伟　刘佳　孙烈　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师张东梅 (51)Int.Cl. G06Q 30/02(2012.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06Q 50/30(2012.01) (54)发明名称旅客出行目的的分类方法、相关装置及计算机存储介质 (57)摘要本申请提供一种旅客出行目的的分类方法、相关装置及计算机存储介质，该方法包括：首先，获取旅客的旅客信息；其中，旅客信息包括：旅客个人信息、旅客客票信息、旅客行程信息和航班信息；然后，根据旅客信息进行特征提取，得到多个初始特征；之后，针对每一个初始特征，对初始特征进行预处理，得到目标特征；再对目标特征进行特征衍生，得到衍生特征；最终，将所有目标特征和衍生特征输入至出行目的分类模型中，输出得到旅客的出行目的；其中，出行目的分类模型由至少一个训练样本数据对随机森林模型进行训练得到；训练样本数据包括训练样本旅客的旅客信息。从而达到可以有效的对旅客出行目的进行分类、识别的目的。权利要求书3页说明书13页附图5页 CN 115358789 A 2022.11.18 CN 115358789 A 1.一种旅客出行目的的分类方法，其特征在于，包括：获取旅客的旅客信息；其中，所述旅客信息包括：旅客个人信息、旅客客票信息、旅客行程信息和航班信息；根据所述旅客信息进行特征提取，得到多个初始特征；针对每一个所述初始特征，对所述初始特征进行预处理，得到目标特征；对所述目标特征进行特征衍生，得到衍生特征；将所有所述目标特征和衍生特征输入至出行目的分类模型中，输出得到所述旅客的出行目的；其中，所述出行目的分类模型由至少一个训练样本数据对随机森林模型进行训练得到；所述训练样本数据包括训练样本旅客的旅客信息。 2.根据权利要求1所述的分类方法，其特征在于，所述针对每一个所述初始特征，对所述初始特征进行预处理，得到目标特征，包括：针对每一个所述初始特征，对所述初始特征的缺失值和异常值进处理，得到第一特征；将所述第一特征进行特征数值化，得到目标特征。 3.根据权利要求1所述的分类方法，其特征在于，所述出行目的分类模型的构建方法，包括：构建训练样本集；其中，所述训练样本集包括至少一个训练样本数据；所述训练样本数据包括训练样本旅客的旅客信息；根据所述训练样本旅客的旅客信息，确定所述训练样本旅客的出行目的标签；其中，所述出行目的标签表明所述训练样本旅客本次出行为因公或因私；将所述训练样本客户的旅客信息输入至随机森林模型中，输出得到所述训练样本旅客的预测出行目的；利用所述预测出行目的以及所述出行目的标签之间的误差对所述随机森林模型的参数进行调整，直至所述所述预测出行目的以及所述出行目的标签之间的误差满足预设的收敛条件，将所述随机森林模型作为出行目的的分类模型。 4.根据权利要求3所述的分类方法，其特征在于，所述根据所述训练样本旅客的旅客信息，确定所述训练样本旅客的出行目的标签，包括：根据初始标签规则和训练样本旅客的旅客信息对训练样本旅客进行第一次标注，得到第一训练样本旅客；其中，所述第一训练样本旅客为在进行第一次标注时，获得标注的训练样本旅客；将第一训练样本旅客的旅客信息输入至随机森林模型中进行训练，得到第一特征重要度排序；根据所述第一特征重要度排序更新初始标签规则，得到第一标签规则；利用所述第一标签规则对第二训练样本旅客进行第二次标注，得到第三训练样本旅客；其中，所述第二训练样本旅客为在进行第一次标注时，未获得标注的训练样本旅客；所述第三训练样本旅客为在进行第二次标注时，获得标注的第二训练样本旅客；将所述第三训练样本旅客的旅客信息输入至随机森林模型中进行训练，得到第二特征重要度排序；根据所述第二特征重要度排序更新第一标签规则，得到第二标签规则；利用所述第二标签规则对第四训练样本旅客进行第三次标注，得到第五训练样本旅权　利　要　求　书 1/3 页 2 CN 115358789 A 2客；其中，所述第四训练样本旅客为在进行第二次标注时，未获得标注的训练样本旅客；所述第五训练样本旅客为在进行第三次标注时，获得标注的第四训练样本旅客；直至获得标注的训练样本旅客的比例大于阈值。 5.一种旅客出行目的的分类装置，其特征在于，包括：获取单元，用于获取旅客的旅客信息；其中，所述旅客信息包括：旅客个人信息、旅客客票信息、旅客行程信息和航班信息；特征提取单元，用于根据所述旅客信息进行特征提取，得到多个初始特征；预处理单元，用于针对每一个所述初始特征，对所述初始特征进行预处理，得到目标特征；衍生单元，用于对所述目标特征进行特征衍生，得到衍生特征；第一输入单元，用于将所有所述目标特征和衍生特征输入至出行目的分类模型中，输出得到所述旅客的出行目的；其中，所述出行目的分类模型由至少一个训练样本数据对随机森林模型进行训练得到；所述训练样本数据包括训练样本旅客的旅客信息。 6.根据权利要求5所述的分类装置，其特征在于，所述预处理单元，包括：第一预处理子单元，用于针对每一个所述初始特征，对所述初始特征的缺失值和异常值进处理，得到第一特征；第二预处理子单元，用于将所述第一特征进行特征数值化，得到目标特征。 7.根据权利要求5所述的分类装置，其特征在于，所述出行目的分类模型的构建单元，包括：训练样本集构建单元，用于构建训练样本集；其中，所述训练样本集包括至少一个训练样本数据；所述训练样本数据包括训练样本旅客的旅客信息；标签确定单元，用于根据所述训练样本旅客的旅客信息，确定所述训练样本旅客的出行目的标签；其中，所述出行目的标签表明所述训练样本旅客本次出行为因公或因私；第二输入单元，用于将所述训练样本客户的旅客信息输入至随机森林模型中，输出得到所述训练样本旅客的预测出行目的；调整单元，用于利用所述预测出行目的以及所述出行目的标签之间的误差对所述随机森林模型的参数进行调整，直至所述所述预测出行目的以及所述出行目的标签之间的误差满足预设的收敛条件，将所述随机森林模型作为出行目的的分类模型。 8.根据权利要求7 所述的分类装置，其特征在于，所述标签确定单元，包括：第一标注单元，用于根据初始标签规则和训练样本旅客的旅客信息对训练样本旅客进行第一次标注，得到第一训练样本旅客；其中，所述第一训练样本旅客为在进行第一次标注时，获得标注的训练样本旅客；第一训练单元，用于将第一训练样本旅客的旅客信息输入至随机森林模型中进行训练，得到第一特征重要度排序；第一更新单元，用于根据所述第一特征重要度排序更新初始标签规则，得到第一标签规则；第二标注单元，用于利用所述第一标签规则对第二训练样本旅客进行第二次标注，得到第三训练样本旅客；其中，所述第二训练样本旅客为在进行第一次标注时，未获得标注的训练样本旅客；所述第三训练样本旅客为在进行第二次标注时，获得标注的第二训练样本权　利　要　求　书 2/3 页 3 CN 115358789 A 3

专利 旅客出行目的的分类方法、相关装置及计算机存储介质

专利旅客出行目的的分类方法、相关装置及计算机存储介质