专利基于属性的多关键词相似排名搜索的数据密文查询方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211139017.6 (22)申请日 2022.09.19 (71)申请人杭州师范大学地址 311121 浙江省杭州市余杭区余杭塘路2318号 (72)发明人孟倩　胡家民　沈忠华　陈克非　刘勇　王付群　张仁军　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 专利代理师朱亚冠 (51)Int.Cl. G06F 21/60(2013.01) G06F 21/62(2013.01) G06F 21/31(2013.01) G06F 16/33(2019.01) (54)发明名称基于属性的多关键词相似排名搜索的数据密文查询方法 (57)摘要本发明公开基于属性的多关键词相似排名搜索的数据密文查询方法。本发明基于数据时代，针对数据敏感、繁重的情况，通过加密的形式对数据进行保存，通过让数据用户提交个人的属性，以此判断该用户是否有访问的权限，如若被允许，数据用户可向云服务器进行查询，云服务器根据数据用户的陷门返回查询结果，且该结果的顺序是按照查询请求相似度大小来排序的。权利要求书3页说明书6页附图1页 CN 115510463 A 2022.12.23 CN 115510463 A 1.基于属性的多关键词相似排名搜索的数据密文查询方法，其特征在于该方法包括以下步骤：步骤S1：数据用户获取可搜索加密密钥、对称加密密钥、总关键词字典及其关键词对应的逆文件频率数据向量：步骤S2：数据拥有者对电子文档生成TF 数据向量组，第二 IDF数据向量；具体是： 2‑1数据拥有者从电子文档集中提取所有关键词，将所有关键词去重组成关键词字典W ＝{ω1,ω2,...,ωn}，对该关键词字典中的关键词进行分组，分成b组，每组有d个关键词，记作GW＝{G1,G2,...,Gb}，其中Gi＝{ω(i‑1)*d+1,ω(i‑1)*d+2,…,ωi*d}，计算每个关键词在每个电子文档的词频TF值； 2‑2数据拥有者将每个电子文档转化为TF数据向量，再将所有的电子文档进行整合，从而生成TF 数据向量组； 2‑3数据拥有者对整个电子文档，进行关键词IDF计算，生成第一 IDF数据向量； 2‑4将第一IDF数据向量数乘十的任意整数倍，得到向量数乘结果；再在上述向量数乘结果与一个任意整数构成的向量相加，得到相加后的向量；接着在相加后的向量上增加γ 个维度，最终得到第二 IDF数据向量；步骤S3：建立电子文档索引；具体是： 3‑1数据拥有者随机生成四个维度为(d+3)*(d+3)的可逆矩阵{M1,M2,M3,M4}，并将其组成可搜索加密密钥K，即K＝{M1,M2,M3,M4}； 3‑2数据拥有者生成传统对称加密算法的对称密钥sk； 3‑3数据拥有者将每个电子文档对应的TF数据向量按照关键词字典中关键词分组的方式进行分组，即某个电子文档的TF数据向量的第i个分组是Gi中元素在该电子文档的TF值，则每个TF数据向量分组的维数是Gi中元素的个数d，每个TF数据向量分成了b组； 3‑4数据拥有者对关键词字典中的每个分组里的各个元素进行逆文件搜索，找出其词频高的电子文档，用上述词频高的电子文档TF数据向量构建二叉树，对每个分组进行以上相同的步骤，共构建b个二叉树； 3‑5将二叉树中的每个TF数据向量转化为数据对角矩阵，数据拥有者利用数据矩阵分裂方法，将每个电子文档对应的数据矩阵A分裂成两个随机的对角矩阵A1、 A2，即A＝A1A2＝ A2A1； 3‑6数据拥有者将可搜索加密密钥K中四个可逆矩阵进行如下相乘，即A'＝(M1A1M2) (M3A2M4)，组成电子文档索引I； 3‑7数据拥有者利用对称密钥sk对每个电子文档和索引I进行加密，得到密文C、索引I； 3‑8数据拥有者将密文C，索引I打包发送给云服务器；步骤S4：生成查询向量分组；步骤S5：生成陷门；具体是： 5‑1将每个查询向量分组添加预设增量维度a，然后将增量后的查询向量分组转化成多个对角矩阵得到查询矩阵；利用矩阵分裂方法，数据用户将每个查询矩阵分裂成两个随机的对角矩阵，得到子查询矩阵A3、 A4； 5‑2数据用户将可搜索加密密钥中四个可逆矩阵的逆{M1,M2,M3,M4}分别与子查询矩阵根据公式(3)计算得到查询向量分组的矩阵B'；权　利　要　求　书 1/3 页 2 CN 115510463 A 2将所有查询向量分组的矩阵B'组成查询请求的陷门T； 5‑3数据用户向云服务器提交查询请求的陷门T；步骤S6：查询密文，选出top ‑k电子文档；步骤S7：解密返回的密文；具体是：数据用户利用对称加密密钥sk，对接收到的k个密文进行解密，得到每个密文对应的明文。 2.如权利要求1所述方法，其特征在于步骤S1具体是： 1 ‑1可信任权威机构给数据拥有者派发公钥，数据拥有者用派发的公钥加密可访问的属性数据结构、可搜索加密密钥、对称加密密钥和关键词字典及其关键词对应的逆文件频率数据向量； 1‑2数据用户上传个人属性至可信任权威机构，可信任权威机构根据个人属性生成的私钥，并将其派发给上传该个人属性的数据用户； 1‑3数据拥有者对提交个人属性的数据用户发送加密后的可搜索加密加密密钥、对称加密密钥、关键词字典及其关键词对应的逆文件频率数据向量； 1‑4判断数据用户的个人属性是否满足预设的属性访问条件，若满足则当前数据用户接收并可解密出数据拥有者发送加密后的可搜索加密密钥、对称加密密钥、关键词字典及其关键词对应的逆文件频率数据向量；若不满足则当前数据用户无法获取。 3.如权利要求1所述方法，其特征在于步骤2 ‑1中每个关键词在每个电子文档的词频TF 值的计算公式如下：其中TF(ωi,Dj)表示关键词ωi在电子文档Dj的词频TF值， f(ωi,Dj)表示关键词ωi在电子文档Dj出现的次数， |Dj|表示电子文档Dj中所有词语的数目。 4.如权利要求1所述方法，其特征在于步骤2 ‑2具体是：根据关键词字典中每个关键词在每个电子文档的词频TF值，构成各电子文档的TF数据向量，从而得到所有电子文档构成的TF数据向量组，其中第i个的电子文档T F数据向量维数为关键词字典的维数， T F数据向量的每个分量对应着关键词字典相同位置的元素，即第i个的电子文档TF数据向量的第j个分量为关键词字典W中的第j个元素ωj在电子文档Di的词频 TF值。 5.如权利要求1所述方法，其特征在于步骤2 ‑3具体是：数据拥有者根据公式(2)求出关键词字典中每个关键词在所有电子文档中的逆文件频率IDF值：其中f(Dj,ωi∈Dj)表示所有电子文档中包含关键词 ωi的文档个数， |D|表示电子文档的总数；根据关键词字典中每个关键词在所在电子文档中的逆文件频率值，构成各电子文档的第一IDF数据向量，其中第一IDF数据向量维数为关键词字典的维数，第一IDF数据向量每个权　利　要　求　书 2/3 页 3 CN 115510463 A 3

专利 基于属性的多关键词相似排名搜索的数据密文查询方法

专利基于属性的多关键词相似排名搜索的数据密文查询方法