专利 一种基于小样本学习的电子邮件作者身份归属识别方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111383946.7 (22)申请日 2021.11.19 (71)申请人四川大学地址 610065 四川省成都市武侯区一环路南一段24号 (72)发明人许益家　方勇　刘中临　杨悦　郭文博　 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) H04L 9/40(2022.01) H04L 51/42(2022.01) (54)发明名称一种基于小样本学习的电子邮件作者身份归属识别方法 (57)摘要本发明是针对电子邮件作者身份归属的识别方法，检测的对象是电子邮件。本方法应用于电子邮件属主识别领域，其核心是针对电子邮件头部，在筛选出有价值的头部字段后，通过统计算法计算这些字段的特征。针对电子邮件正文，通过Word2Vec算法构建单词级别的文本表征，通过CNN算法构建字符级别文本表征，利用BiLSTM 算法与自注意力机制捕获邮件作者书写习惯特征。将三部分特征进行融合得到新的表征，利用动态路由算法构建作者身份的类别向量，最后使用神经张量计算匿名邮件与作者类向量间的相似性，依据相似性分数为匿名邮件样本分配标签，最终实现作者的识别，该方法可以解决网络匿名攻击邮件的归属判定，为攻击溯源提供支撑。权利要求书1页说明书4页附图3页 CN 114036264 A 2022.02.11 CN 114036264 A 1.一种基于小样本学习的电子邮件身份归属识别方法，其特征在于，所述方法包括如下步骤： A、在邮件编码模块，为更全面的在邮件中提取出代表邮件作者身份的特征，本发明提取邮件头部和正文的特征和信息，并将其进行融合，最终生成邮件的新表征； B、在作者身份表示模块，利用动态路由算法，将相同类别的样本进行聚合，并生成类向量表示； C、在关系查询模块，通过神经张量模型计算待检测的样本与不同的类向量之间的相似性，以判断待检测样本的类别，最终实现邮件作者身份的确定。 2.根据权利要求1所述的一种基于小样本学习的电子邮件身份归属识别方法，其特征在于，邮件编码过程中，首先提取邮件头部特征：包括五个发件人可控的头部字段Data、 From、 To、 Subject和Cc，以及每个字段的统计特征；然后进行邮件正文单词级别的特征嵌入：将电子邮件正文进行分词处理，然后将分词后的单词构建单词表，最后通过 Word2Vec 算法产生电子邮件正文单词级别的向量表征；同时对邮件正文进行字符级别特征嵌入：将电子邮件通过 One‑hot 进行向量化后，通过卷积神经网络输出邮件正文的字符级别向量表征；接着针对正文字符和单词级别特征采用BiLSTM算法和自注意力机制进行作者写作风格特征提取；最后将邮件的头部以及正文特征进行拼接，使用权重网络进行融合表示，输出邮件新的表征，完成邮件特征融合。 3.根据权利要求1所述的一种基于小样本学习的电子邮件身份归属识别方法，其特征在于，在关系查询过程中检测模型输入待查询的邮件编码，然后通过神经张量网络计算待查询样本与每个作者类别向量表征的 “空间距离 ”作为相似性，如果相似度为 1，表明代查询样本与类别匹配，否则不匹配，最后得出邮件的归属类别，完成作者身份识别。权　利　要　求　书 1/1 页 2 CN 114036264 A 2一种基于小样本学习的电子邮件作者身份归属识别方法技术领域 [0001]本发明涉及邮件身份识别领域，主要核心是采集大量电子邮件数据集，利用自然语言处理方法与BiLSTM算法融合提取到的三部分特征，并训练基于Intr oduction网络的检测模型，最后实现样本不充足情况下的邮件归属识别。背景技术 [0002]电子邮件作为人们工作和生活中常用的通信方式，经常被攻击者利用。同时，在电子邮件的取证过程中也面临着诸多困难，其中一点就是判断邮件的真实作者。攻击者可以通过盗取用户的凭证或直接欺骗电子邮件服务器的方式，达到伪造他人身份进行攻击的目的。单纯地使用邮件传输协议的安全机制无法完全抵抗这些攻击。 [0003]当下电子邮件是高级可持续性攻击和钓鱼攻击的重要载体，为了使受害者更容易受到攻击，攻击者可以盗取他人账号或者伪装成受害者信任的人，如同事、朋友等。攻击者一般利用以下两种攻击手段： 1）攻击者可以通过钓鱼邮件或邮件跨站脚本（Cr oss‑site scripting, XSS）等漏洞盗取受害人的登录凭证，然后利用盗取的凭证进行再次攻击； 2）攻击者通过发件人伪造攻击直接欺骗邮件服务器，将邮件的 “发件人”伪造为其他人的电子邮箱地址。 [0004]电子邮件取证为解决各类案件审判创造了更便捷的条件，但电子邮件取证过程中仍存在诸多困难： 1）虽然国内的电子邮件服务商均要求用户进行实名认证，但电子邮件是一种使用开放协议的通信方式，用户可以选择国外的电子邮件服务商或者自建电子邮件服务器发送匿名电子邮件； 2）犯罪分子可能会盗用他人邮箱，导致在取证过程中难以确定真实发件人； 3）电子邮件所使用的协议仍存在安全问题，在近三年的国际会议中，均有电子邮件发件人伪造攻击的相关研究，通过攻击电子邮件服务器，也可以冒充他人。这些困难都会对电子邮件取证造成干扰。 [0005]在现有的邮件作者身份归属问题的研究中，研究人员一般通过人工提取邮件正文的特征或通过深度学习算法提取邮件正文的特征以代表邮件作者的身份，这种特征通常可以反映邮件作者的书写习惯。在捕获不同特征后，使用不同的算法构建模型。但是目前的研究中也存在一些局限：一、研究人员通常只保留了电子邮件正文的信息，而忽略了邮件头部的特征；二、同时研究人员一般都在有充足数据集的情况下进行模型构建，忽略了真实情况下，电子邮件数据收集困难，构建模型的数据集规模要更小的情况。发明内容 [0006]“一种基于小样本学习的电子邮件作者身份归属识别方法 ”是为了解决目前在样本不充足的情况下实现电子邮件属主的精确识别，发明的目的是实现针对匿名攻击邮件的归属判别。 [0007]本发明创新性地提出了基于小样本的电子邮件归属识别方法，其通过对邮件头部说　明　书 1/4 页 3 CN 114036264 A 3

专利 一种基于小样本学习的电子邮件作者身份归属识别方法

专利一种基于小样本学习的电子邮件作者身份归属识别方法