全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211011041.1 (22)申请日 2022.08.23 (71)申请人 珠海市新德汇信息技 术有限公司 地址 519085 广东省珠海市高新区唐家湾 镇科技三路19号1栋 (72)发明人 杨刚 苏文辉 翟永强 李东和  陈海发 龚波 苏学武 水军  (51)Int.Cl. G06F 16/903(2019.01) G06F 40/289(2020.01) G06F 40/242(2020.01) G06Q 50/26(2012.01) (54)发明名称 一种甄别境外人员一人有多个证件号码的 方法 (57)摘要 本发明公开了一种甄别境外人员一人有多 个证件号码的方法, 包括以下步骤: S1、 对原始数 据进行采集; S2、 将原始数据共性字段汇总至一 起, 去重后取并集数据; S3、 利用业务规则和最长 公共子串算法, 将字段拼在一起, 数据两两进行 比对, 为每条数据的相似度进行打分; S4、 利用业 务规则和分词算法, 把句子按照字典切分成词, 寻找词的最佳组合方式, 为每个数据打上比对分 数; S5、 对计算后的数据分组排序, 取序号为1并 且分组最高的数据; S6、 关联人像识别的数据, 排 除掉人证不一致的数据; S7、 设置一定的阈值, 将 分数达到阈值线以上的数据提取至业务库中。 本 发明主要是通过对数据的关联、 比对等技术, 为 出入境、 边检等部门提供甄别境外人员唯一身 份。 权利要求书1页 说明书3页 附图3页 CN 115408576 A 2022.11.29 CN 115408576 A 1.一种甄别境外人员一人有 多个证件号码的方法, 其特 征在于, 包括以下步骤: S1、 对原始数据进行采集; S2、 将步骤S1中原 始数据共性字段汇总至一 起, 去重后取并集数据; S3、 利用业务规则和最长公共子串算法, 将字段拼在一起, 数据两两进行比对, 并且为 每条数据的相似度进行打 分; S4、 利用业务规则和分词算法, 把句子按照字典切分成词, 寻找词的最佳组合方式, 并 且为每个数据打上比对分数; S5、 对步骤S3和步骤S4计算后的数据分组排序, 取序号 为1并且分组最高的数据; S6、 关联人像识别的数据, 排除掉人证不 一致的数据; S7、 设置一定的阈值, 将分数达 到阈值线以上的数据提取至业 务库中。 2.根据权利要求1所述的一种甄别境外人员一人有多个证件号码的方法, 其特征在于, 所述原始数据包括出入境数据、 签 证数据。 3.根据权利要求1所述的一种甄别境外人员一人有多个证件号码的方法, 其特征在于, 在进行步骤S1后, 针对不同来源数据标准不一的情况, 制定统一的数据标准, 按照相应的数 据标准进行 数据清洗和关联, 形成标准库的数据。 4.根据权利要求1所述的一种甄别境外人员一人有多个证件号码的方法, 其特征在于, 所述步骤S3包括以下步骤: 将特定的数据转化为字符串, 然后给定字符串的集合S={S1, ..., SK}, 其中|Si|=ni, ∑ ni=N.; 对于满 足2≤k≤K的k, 找出至少S是K个字符串的公共子串的最长串, 最终为每个数 据打上比对分数。 5.根据权利要求1所述的一种甄别境外人员一人有多个证件号码的方法, 其特征在于, 所述步骤S5中, 利用row_number()开窗算法进行对步骤S3和步骤S4计算后的数据分组排 序。权 利 要 求 书 1/1 页 2 CN 115408576 A 2一种甄别境外人员一人有多个 证件号码的方 法 技术领域 [0001]本发明涉及数据分析技术领域, 更具体涉及一种甄别境外人员一人有多个证件号 码的方法。 背景技术 [0002] [0003]全世界的护照号码参差不齐, 没有统一的标准; 很多情况下根本无法像中国人一 样, 通过身份 证号码对身份进行查验, 所以很难通过护照号码去判断身份的唯一 性。 [0004]在以往工作过程中, 工作人员对境外人员管理时, 只能通过查询其他业务系统或 者对境外人员当面询问, 来 发现是否有异常情况, 整体的工作完全凭借个人经验, 难以甄别 信息的真实性。 发明内容 [0005]本发明需要解决的技术问题是提供一种甄别境外人员一人有多个证件号码的方 法, 以解决目前无法有效甄别境外人员一人有多个证件号码的问题, 通过对数据的关联、 比 对等技术, 为出入境、 边检等部门提供甄别境外人员唯一身份。 [0006]为解决上述 技术问题, 本发明所采取的技 术方案如下。 [0007]一种甄别境外人员一人有 多个证件号码的方法, 包括以下步骤: [0008]S1、 对原始数据进行采集; [0009]S2、 将步骤S1中原 始数据共性字段汇总至一 起, 去重后取并集数据; [0010]S3、 利用业务规则和最长公共子串算法, 将字段拼在一起, 数据两两进行比对, 并 且为每条 数据的相似度进行打 分; [0011]S4、 利用业务规则和分词算法, 把句子按照字典切分成词, 寻找词的最佳组合方 式, 并且为每 个数据打上比对分数; [0012]S5、 对步骤S3和步骤S4计算后的数据分组排序, 取序号 为1并且分组最高的数据; [0013]S6、 关联人像识别的数据, 排除掉人证不 一致的数据; [0014]S7、 设置一定的阈值, 将分数达 到阈值线以上的数据提取至业 务库中。 [0015]进一步优化技术方案, 所述原 始数据包括出入境数据、 签 证数据。 [0016]进一步优化技术方案, 在进行步骤S1后, 针对不同来源数据标准不一的情况, 制定 统一的数据标准, 按照相应的数据标准进行 数据清洗和关联, 形成标准库的数据。 [0017]进一步优化技术方案, 所述 步骤S3包括以下步骤: [0018]将特定的数据转化为字符串, 然后给定字符串的集合S={S1, ..., SK}, 其中 |Si| =ni, ∑ni=N.; 对于满足2≤ k≤K的k, 找出至少S是K个字符串的公共子串的最长串, 最终为 每个数据打上比对分数。 [0019]进一步优化技术方案, 所述步骤S5 中, 利用row_number()开窗算法进行对步骤S3 和步骤S4计算后的数据分组排序。说 明 书 1/3 页 3 CN 115408576 A 3

PDF文档 专利 一种甄别境外人员一人有多个证件号码的方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种甄别境外人员一人有多个证件号码的方法 第 1 页 专利 一种甄别境外人员一人有多个证件号码的方法 第 2 页 专利 一种甄别境外人员一人有多个证件号码的方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:41:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。