全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211012825.6 (22)申请日 2022.08.23 (71)申请人 中国民航信息网络股份有限公司 地址 100085 北京市顺 义区后沙峪镇裕民 大街7号 (72)发明人 陈伟 刘佳 孙烈  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 张东梅 (51)Int.Cl. G06Q 30/02(2012.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06Q 50/30(2012.01) (54)发明名称 旅客出行目的的分类方法、 相关装置及计算 机存储介质 (57)摘要 本申请提供一种旅客出行目的的分类方法、 相关装置及计算机存储介质, 该方法包括: 首先, 获取旅客的旅客信息; 其中, 旅客信息包括: 旅客 个人信息、 旅客客票信息、 旅客行程信息和航班 信息; 然后, 根据旅客信息进行特征提取, 得到多 个初始特征; 之后, 针对每一个初始特征, 对初始 特征进行预处理, 得到目标特征; 再对目标特征 进行特征衍生, 得到衍生特征; 最终, 将所有目标 特征和衍生特征输入至出行目的分类模 型中, 输 出得到旅客的出行目的; 其中, 出行目的分类模 型由至少一个训练样本数据对随机森林模型进 行训练得到; 训练样本数据包括训练样本旅客的 旅客信息。 从而达到可以有效的对旅客出行目的 进行分类、 识别的目的。 权利要求书3页 说明书13页 附图5页 CN 115358789 A 2022.11.18 CN 115358789 A 1.一种旅客出 行目的的分类方法, 其特 征在于, 包括: 获取旅客的旅客信息; 其中, 所述旅客信息包括: 旅客个人信 息、 旅客客票信息、 旅客行 程信息和航班信息; 根据所述旅客信息进行 特征提取, 得到多个初始特 征; 针对每一个所述初始特 征, 对所述初始特 征进行预处理, 得到目标 特征; 对所述目标 特征进行特征衍生, 得到衍 生特征; 将所有所述目标特征和衍生特征输入至出行目的分类模型中, 输出得到所述旅客的出 行目的; 其中, 所述出行目的分类模型 由至少一个训练样本数据对随机森林模型进行训练 得到; 所述训练样本数据包括训练样本 旅客的旅客信息 。 2.根据权利要求1所述的分类方法, 其特征在于, 所述针对每一个所述初始特征, 对所 述初始特 征进行预处理, 得到目标 特征, 包括: 针对每一个所述初始特 征, 对所述初始特 征的缺失值和异常值进处 理, 得到第一特 征; 将所述第一特 征进行特征数值化, 得到目标 特征。 3.根据权利要求1所述的分类方法, 其特征在于, 所述出行目的分类模型的构建方法, 包括: 构建训练样本集; 其中, 所述训练样本集包括至少一个训练样本数据; 所述训练样本数 据包括训练样本 旅客的旅客信息; 根据所述训练样本旅客的旅客信息, 确定所述训练样本旅客的出行目的标签; 其中, 所 述出行目的标签表明所述训练样本 旅客本次出 行为因公或因私; 将所述训练样本客户的旅客信 息输入至随机森林模型中, 输出得到所述训练样本旅客 的预测出 行目的; 利用所述预测出行目的以及所述出行目的标签之间的误差对所述随机森林模型的参 数进行调整, 直至所述所述预测出行目的以及所述出行目的标签之 间的误差满足预设的收 敛条件, 将所述随机森林模型作为出 行目的的分类模型。 4.根据权利要求3所述的分类方法, 其特征在于, 所述根据 所述训练样本旅客的旅客信 息, 确定所述训练样本 旅客的出 行目的标签, 包括: 根据初始标签规则和训练样本旅客的旅客信 息对训练样本旅客进行第 一次标注, 得到 第一训练样本旅客; 其中, 所述第一训练样本旅客为在 进行第一次标注时, 获得标注的训练 样本旅客; 将第一训练样本旅客的旅客信 息输入至随机森林模型中进行训练, 得到第 一特征重要 度排序; 根据所述第一特 征重要度排序更新初始标签规则, 得到第一标签规则; 利用所述第一标签规则对第二训练样本旅客进行第二次标注, 得到第三训练样本旅 客; 其中, 所述第二训练样本旅客为在进行第一次标注 时, 未获得标注的训练样本旅客; 所 述第三训练样本 旅客为在进行第二次标注时, 获得 标注的第二训练样本 旅客; 将所述第三训练样本旅客的旅客信 息输入至随机森林模型中进行训练, 得到第 二特征 重要度排序; 根据所述第二特 征重要度排序更新第一标签规则, 得到第二标签规则; 利用所述第二标签规则对第四训练样本旅客进行第三次标注, 得到第五训练样本旅权 利 要 求 书 1/3 页 2 CN 115358789 A 2客; 其中, 所述第四训练样本旅客为在进行第二次标注 时, 未获得标注的训练样本旅客; 所 述第五训练样本 旅客为在进行第三次标注时, 获得 标注的第四训练样本 旅客; 直至获得 标注的训练样本 旅客的比例大于阈值。 5.一种旅客出 行目的的分类装置, 其特 征在于, 包括: 获取单元, 用于获取旅客的旅客信息; 其中, 所述旅客信 息包括: 旅客个人信息、 旅客客 票信息、 旅客行程信息和航班信息; 特征提取单元, 用于根据所述旅客信息进行 特征提取, 得到多个初始特 征; 预处理单元, 用于针对每一个所述初始特征, 对所述初始特征进行预处理, 得到目标特 征; 衍生单元, 用于对所述目标 特征进行特征衍生, 得到衍 生特征; 第一输入单元, 用于将所有所述目标特征和衍生特征输入至出行目的分类模型中, 输 出得到所述旅客的出行目的; 其中, 所述出行目的分类模型 由至少一个训练样本数据对随 机森林模型进行训练得到; 所述训练样本数据包括训练样本 旅客的旅客信息 。 6.根据权利要求5所述的分类装置, 其特 征在于, 所述预处 理单元, 包括: 第一预处理子单元, 用于针对每一个所述初始特征, 对所述初始特征的缺失值和异常 值进处理, 得到第一特 征; 第二预处 理子单元, 用于将所述第一特 征进行特征数值化, 得到目标 特征。 7.根据权利要求5所述的分类装置, 其特征在于, 所述出行目的分类模型的构建单元, 包括: 训练样本集构建单元, 用于构建训练样本集; 其中, 所述训练样本集包括至少一个训练 样本数据; 所述训练样本数据包括训练样本 旅客的旅客信息; 标签确定单元, 用于根据所述训练样本旅客的旅客信息, 确定所述训练样本旅客的出 行目的标签; 其中, 所述出 行目的标签表明所述训练样本 旅客本次出 行为因公或因私; 第二输入单元, 用于将所述训练样本客户的旅客信息输入至随机森林模型中, 输出得 到所述训练样本 旅客的预测出 行目的; 调整单元, 用于利用所述预测出行目的以及所述出行目的标签之间的误差对所述随机 森林模型的参数进行调整, 直至所述所述预测出行目的以及所述出行目的标签之 间的误差 满足预设的收敛 条件, 将所述随机森林模型作为出 行目的的分类模型。 8.根据权利要求7 所述的分类装置, 其特 征在于, 所述标签确定单 元, 包括: 第一标注单元, 用于根据初始标签规则和训练样本旅客的旅客信 息对训练样本旅客进 行第一次标注, 得到第一训练样本旅客; 其中, 所述第一训练样本旅客为在进 行第一次标注 时, 获得标注的训练样本 旅客; 第一训练单元, 用于将第一训练样本旅客的旅客信息输入至随机森林模型中进行训 练, 得到第一特 征重要度排序; 第一更新单元, 用于根据所述第一特征重要度排序更新初始标签规则, 得到第一标签 规则; 第二标注单元, 用于利用所述第一标签规则对第二训练样本旅客进行第二次标注, 得 到第三训练样本旅客; 其中, 所述第二训练样 本旅客为在进 行第一次标注时, 未获得标注的 训练样本旅客; 所述第三训练样本旅客为在进行第二次标注时, 获得标注的第二训练样本权 利 要 求 书 2/3 页 3 CN 115358789 A 3

.PDF文档 专利 旅客出行目的的分类方法、相关装置及计算机存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 旅客出行目的的分类方法、相关装置及计算机存储介质 第 1 页 专利 旅客出行目的的分类方法、相关装置及计算机存储介质 第 2 页 专利 旅客出行目的的分类方法、相关装置及计算机存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:32:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。