专利长尾级联流行度预测模型、训练方法及预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111169186.X (22)申请日 2021.10.08 (66)本国优先权数据 202110502668.6 2021.0 5.09 CN (71)申请人电子科技大学地址 611731 四川省成都市高新区(西区) 西源大道 2006号 (72)发明人周帆　余柳　代雨柔　钟婷　 (74)专利代理机构成都虹盛汇泉专利代理有限公司 51268 代理人王伟 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/00(2012.01) G06N 20/00(2019.01) (54)发明名称长尾级联流行度预测模型、训练方法及预测方法 (57)摘要本发明公开了一种长尾级联流行度预测模型、训练方法及预测方法，该长尾级联流行度预测模型包括骨干网络、以及位于骨干网络之后的回归器，回归器包括并行设置的原始回归器和子网络SUB；骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型；骨干网络用于提取长尾级联的时间特征和空间特征；原始回归器用于得到该长尾级联流行度的原始预测值；述子网络SUB用于得到该长尾级联流行度的加权偏差；以该长尾级联流行度的原始预测值与加权偏差之和作为最终流行度预测值。本发明利用解耦的思想，整个模型训练分为两个阶段，首先利用不同的采样策略来提取骨干网络的特征表示，然后将骨干网络的参数固定住，再通过几种不同的方法微调回归器，该回归器结合了原始的预测值和由子网络SUB产生的加权偏差值，达到更准确预测流行度的目的。权利要求书2页说明书12页附图2页 CN 113887806 A 2022.01.04 CN 113887806 A 1.一种长尾级联流行度预测模型，其特征在于包括骨干网络、以及位于骨干网络之后的回归器，所述回归器包括并行设置的原始回归器和子网络SUB；所述骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型；所述骨干网络用于提取长尾级联的时间特征和空间特征；所述原始回归器用于依据骨干网络提取的时间特征和空间特征，得到该长尾级联流行度的原始预测值；所述子网络SUB用于依据骨干网络提取的时间特征和空间特征，得到该长尾级联流行度的加权偏差；以该长尾级联流行度的原始预测值与加权偏差之和作为最终流行度预测值。 2.根据权利要求1所述长尾级联流行度预测模型，其特征在于所述子网络SUB包括并行设置的第一分支子网络和第二分支子网络；第一分支子网络用于获取该条长尾级联在R个类别中的偏差br；第二分支子网络通过全连接层和softmax函数得到该条长尾级联在R个类别的偏差的概率pr，则该条长尾级联流行度的加权偏差为 3.权利要求1或2所述长尾级联流行度预测模型的训练方法，其特征在于包括以下步骤： S1数据预处理：统计每一条级联在观测时间内的转发路径，将每一条级联的历史转发过程用加权的有向无环图来表示，并划分出输入数据和流行度标签，得到训练集数据；经过预处理后的原始数据集为长尾分布，将其按照标签的大小降序排序，将训练集划分为R大类。 S2提取骨干网络的参数：基于步骤S1预处理后的R大类训练集，分别采用多种采样策略学习长尾级联流行度预测模型的骨干网络表示，从多种采样策略得到的结果中筛选出骨干网络的最优表示； S3微调回归器：基于步骤S1预处理后的R大类训练集，分别采用多种微调方法对骨干网络固定后的长尾级联流行度预测模型进行微调，得到长尾级联流行度预测模型。 4.根据权利要求3所述长尾级联流行度预测模型的训练方法，其特征在于步骤S1中，对原始数据集按照以下分步骤进行预处理： S11对原始数据集进行筛选；本步骤中过滤掉原始数据集在观测时间内转发量|C(ts)| ＜10的级联，对于|C(ts)|＞100的级联，只会选择前100名的参与者； S12对筛选出的每一条级联的历史转发过程用加权有向无环图来表示，得到训练集数据，并划分出输入数据和标签(即流行度)；例如输入数据为X＝{xi＝Ci(ts)}， yi＝Pi(tp)， i ∈{1， 2， ...， n}，其中xi表示级联观测时间内的转发， yi表示xi的标签(即流行度)， tp为预测时间， n表示训练集总数量； S13将训练集数据按照流行度划分为R大类； nj代表类别j训练样本的个数， R代表类别的个数，所以训练集的总数量 5.根据权利要求4所述长尾级联流行度预测模型的训练方法，其特征在于步骤S2中，使用的采样策略包括实例平衡采样、类平衡采样、平方根采样和渐进平衡采样。 6.根据权利要求5所述长尾级联流行度预测模型的训练方法，其特征在于，令pj为从类别j采样的概率，考虑则四种采样策略具体为：权　利　要　求　书 1/2 页 2 CN 113887806 A 2(1)实例平衡采样策略(Instance ‑Balanced Sampling)，这是最常见的采用策略之一，训练集中的每个样本具有相等的被选择概率，即q＝1： nj表示当前类别的样本数量、 nr表示不同类别的样本数量； (2)类平衡采样策略(Class ‑Balanced Sampling)，不同类别的样本具有相等的被选择概率，即q＝0： (3)平方根采样策略(Square ‑Root Sampling)，作为实例平衡采样和类平衡采样之间的折衷策略，令q＝1/2： (4)渐进平衡采样策略(Progressively ‑Balanced Sampling)，该策略结合了前几种策略的特征，其中e 是当前迭代次数， E是控制迭代总数的超参数： 7.根据权利要求4所述长尾级联流行度预测模型的训练方法，其特征在于步骤S3 中，所述微调方法包括回归器重新训练法和 η归一化回归器训练法： (1)回归器重训练法：首先将S2中得到的骨干网络参数θ保持固定，然后随机初始化回归器，并使用类平衡采样策略对训练集进行采样，进一步对整个长尾级联流行度预测模型进行训练； (2)η归一化回归器训练法：使S2中得到的骨干网络参数θ 以及按照回归器重训练方法得到的回归器参数w和b保持固定，并使用类平衡采样策略对训练集进行采样，再使用正则化回归器中的w，进一步对整个长尾级联流行度预测模型进行训练，学习正则化的缩放因子 η。 8.一种长尾级联流行度预测方法，其特征在于将待预测级联输入到权利要求1至7任一权利要求构建的长尾级联流行度预测模型中，得到该待预测级联的流行度预测值。 9.根据权利要求8所述长尾级联流行度预测方法，其特征在于包括以下步骤： L1将待预测级联的历史转发过程用加权有向无环图来表示； L2将使用加权有向无环图表示的待预测级联输入到构建的长尾级联流行度预测模型中，得到该待预测级联的流行度预测值。权　利　要　求　书 2/2 页 3 CN 113887806 A 3

专利 长尾级联流行度预测模型、训练方法及预测方法

专利长尾级联流行度预测模型、训练方法及预测方法