(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111383946.7
(22)申请日 2021.11.19
(71)申请人 四川大学
地址 610065 四川省成 都市武侯区一环路
南一段24号
(72)发明人 许益家 方勇 刘中临 杨悦
郭文博
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
H04L 9/40(2022.01)
H04L 51/42(2022.01)
(54)发明名称
一种基于小样本学习的电子邮件作者身份
归属识别方法
(57)摘要
本发明是针对电子邮件作者身份归属的识
别方法, 检测的对象是电子邮件。 本方法应用于
电子邮件属主识别领域, 其核心是针对电子邮件
头部, 在筛选出有价值的头部字段后, 通过统计
算法计算这些字段的特征。 针对电子 邮件正文,
通过Word2Vec算 法构建单词级别的文本表征, 通
过CNN算法构建字符级别文本表征, 利用BiLSTM
算法与自注意力机制捕获邮件作者书写习惯特
征。 将三部分特征进行融合得到新的表征, 利用
动态路由算法构建作者身份的类别向量, 最后使
用神经张量计算匿名邮件与作者类向量间的相
似性, 依据相似性分数为匿名邮件样本分配标
签, 最终实现作者的识别, 该方法可以解决网络
匿名攻击邮件的归属判定, 为攻击溯源提供支
撑。
权利要求书1页 说明书4页 附图3页
CN 114036264 A
2022.02.11
CN 114036264 A
1.一种基于小样本学习的电子邮件身份归属识别方法, 其特征在于, 所述方法包括如
下步骤:
A、 在邮件编码模块, 为更全面的在邮件中提取出代表邮件作者身份的特征, 本发明提
取邮件头 部和正文的特 征和信息, 并将其进行融合, 最终生成邮件的新表征;
B、 在作者身份表示模块, 利用动态路由算法, 将相同类别的样本进行聚合, 并生成类向
量表示;
C、 在关系查询模块, 通过神经张量模型计算待检测的样本与不同的类向量之间的相似
性, 以判断待检测样本的类别, 最终 实现邮件作者身份的确定 。
2.根据权利要求1所述的一种基于小样本学习的电子邮件身份归属识别方法, 其特征
在于, 邮件编码过程中, 首先提取邮件头部特征: 包括五个发件人可控的头部字段Data、
From、 To、 Subject和Cc, 以及每个字段的统计特征; 然后进行邮件正文单词级别的特征嵌
入: 将电子邮件正文进行分词处理, 然后将分词后的单词构建单词表, 最后通过 Word2Vec
算法产生电子邮件正文单词级别的向量表征; 同时对邮件正文进行字符级别特征嵌入: 将
电子邮件通过 One‑hot 进行向量化后, 通过卷积神经网络输出邮件正文的字符级别向量
表征; 接着 针对正文字 符和单词级别特征采用BiLSTM算法和自注 意力机制进 行作者写作风
格特征提取; 最后将邮件的头部以及正文 特征进行拼接, 使用权重网络进 行融合表示, 输出
邮件新的表征, 完成邮件特 征融合。
3.根据权利要求1所述的一种基于小样本学习的电子邮件身份归属识别方法, 其特征
在于, 在关系查询过程中检测模型输入待查询的邮件编码, 然后通过神经张量网络计算待
查询样本与每个作者类别向量表征的 “空间距离 ”作为相似性, 如果相似度为 1, 表明代 查询
样本与类别匹配, 否则不匹配, 最后得 出邮件的归属类别, 完成作者身份识别。权 利 要 求 书 1/1 页
2
CN 114036264 A
2一种基于小样本学习的电子邮件作者身份归属识别方 法
技术领域
[0001]本发明涉及邮件身份识别领域, 主要核心是采集大量电子邮件数据集, 利用自然
语言处理方法与BiLSTM算法融合提取到的三部分特征, 并训练基于Intr oduction网络的检
测模型, 最后实现样本不充足情况 下的邮件 归属识别。
背景技术
[0002]电子邮件作为人们工作和生活中常用的通信方式, 经常被攻击者利用。 同时, 在电
子邮件的取证过程中也面临着诸多困难, 其中一点就是判断邮件的真实作者。 攻击者可以
通过盗取用户的凭证或直接欺骗电子邮件服务器的方式, 达到伪造他人身份进行攻击的目
的。 单纯地使用邮件传输协议的安全机制无法完全抵抗 这些攻击 。
[0003]当下电子邮件是高级可持续性攻击和钓鱼攻击 的重要载体, 为了使受害者 更容
易受到攻击, 攻击者可以盗取他人账号 或者伪装成受害者信任的人, 如同 事、 朋友等。 攻击
者一般利用以下两种攻击手段: 1) 攻击者可以通过钓鱼邮件 或邮件跨站脚本 (Cr oss‑site
scripting, XSS) 等漏洞盗取受害人的登录凭证, 然后利用盗取的凭证进行再次攻击; 2) 攻
击者通过发件人伪造攻击直接欺骗邮件 服务器, 将邮件的 “发件人”伪造为其他人的电子
邮箱地址 。
[0004]电子邮件取证为解决各类案件审判创造了更便捷的条件, 但电子邮件取证过程中
仍存在诸多困难: 1) 虽然国内的电子邮件服务商均要求用户进行实名认证, 但电子邮件是
一种使用开放协 议的通信方式, 用户可以选择国外的电子邮件服务商或者自建电子邮件服
务器发送匿名电子邮件; 2) 犯罪分子可能会盗用他人邮箱, 导致在取证过程中难以确定真
实发件人; 3) 电子邮件所使用的协 议仍存在安全问题, 在近三年的国际会议中, 均有电子邮
件发件人伪造攻击的相关研究, 通过攻击电子邮件服务器, 也可以冒充他人。 这些困难都会
对电子邮件取证造成干扰。
[0005]在现有的邮件作者身份归属问题的研究中, 研究人员一般通过人工提取邮件正文
的特征或通过深度学习算法提取邮件正文的特征以代表邮件作者的身份, 这种特征通常可
以反映邮件作者的书写习惯。 在捕获不同特征后, 使用不同的算法构建模型。 但是目前的研
究中也存在一些局限:
一、 研究人员通常只保留了电子邮件正文的信息, 而 忽略了邮件头 部的特征;
二、 同时研究人员一般都在有充足数据集的情况下进行模型构建, 忽略了真实情
况下, 电子邮件数据收集困难, 构建模型的数据集 规模要更小的情况。
发明内容
[0006]“一种基于小样本学习的电子邮件作者身份归属识别方法 ”是为了解决目前在样
本不充足的情况下实现电子邮件属主的精确识别, 发明的目的是实现针对匿名攻击邮件的
归属判别。
[0007]本发明创新性地提出了基于小样本的电子邮件归属识别方法, 其通过对邮件头部说 明 书 1/4 页
3
CN 114036264 A
3
专利 一种基于小样本学习的电子邮件作者身份归属识别方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 04:20:05上传分享