专利 一种流量工程方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111483364.6 (22)申请日 2021.12.07 (71)申请人中国科学院计算技术研究所地址 100190 北京市海淀区中关村科学院南路6号 (72)发明人王凌豪　王淼　张玉军　 (74)专利代理机构北京泛华伟业知识产权代理有限公司 1 1280 代理人王勇 (51)Int.Cl. H04L 41/0896(2022.01) H04L 41/12(2022.01) H04L 41/14(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)H04L 9/40(2022.01) (54)发明名称一种流量工程方法及系统 (57)摘要本发明提供一种流量工程方法,所述方法采用智能体，所述智能体中部署有根据网络拓扑信息和业务流信息获取流量工程策略的基线模块和强化学习模块，所述方法包括在预设的周期内重复执行如下步骤： S1、基于网络拓扑信息和业务流信息，通过智能体分别获取由基线模块得到的基于基线方法的流量工程策略和强化学习模块得到的基于强化学习方法的流量工程策略； S2、对比基于基线方法的流量工程策略和基于强化学习方法的流量工程策略的安全性，并执行安全性高的策略； S3、将被执行了的基于基线方法的流量工程策略对应的状态信息存储到示范数据集，将基于强化学习方法的流量工程策略对应的状态信息存储到经验回放数据集，从经验回放数据集和示范数据集中采集样本训练强化学习模块。权利要求书2页说明书11页附图3页 CN 114285751 A 2022.04.05 CN 114285751 A 1.一种流量工程方法,所述方法采用智能体，且所述智能体中部署有根据网络拓扑信息和业务流信息获取流量工程策略的基线模块和强化学习模块，其特征在于，所述方法包括在预设的周期内重复执行如下步骤： S1、基于网络拓扑信息和业务流信息，通过智能体分别获取由基线模块得到的基于基线方法的流量工程策略和强化学习模块得到的基于强化学习方法的流量工程策略； S2、对比基于基线方法的流量工程策略和基于强化学习方法的流量工程策略的安全性，并执行安全性高的策略； S3、将被执行了的基于基线方法的流量工程策略对应的状态信息存储到示范数据集，将基于强化学习方法的流量工程策略对应的状态信息存储到经验回放数据集，从经验回放数据集和示范数据集中采集样本训练强化学习模块。 2.根据权利要求1所述的方法，其特征在于，所述预设的周期为根据实际应用场景需求设置的执行流量工程的时间。 3.根据权利要求1所述的方法，其特征在于，所述步骤S2包括： S21、分别评估基于基线方法的流量工程策略和基于强化学习方法的流量工程策略的带宽； S22、对比基于基线方法的流量工程策略和基于强化学习方法的流量工程策略的带宽，强化学习方法的流量工程策略的带宽大于或等于基于基线方法的流量工程策略的带宽与安全阈值的乘积时，执行基于强化学习方法的流量工程策略，基于强化学习方法的流量工程策略的带宽小于基于基线方法的流量工程策略的带宽与安全阈值的乘积时，执行基于基线方法的流量工程策略。 4.根据权利要求3所述的方法，其特征在于，所述步骤S21中通过如下方式评估不同策略对应的带宽： Tt＝∑Tij Tij＝biwij/MAX(1.0， u) 其中， Tij表示业务流i在第j条路径上的带宽， bi表示业务流i所需的带宽信息， wij表示在当前流量工程策略下第i条流被分配在第 j条路径上的比例， u表示第i条流在网络中的瓶颈利用率， Ue表示在当前流量工程策略下业务流对每条链路的利用率， Pi,j表示业务流i的第j条路径。 5.根据权利要求3所述的方法，其特征在于，所述安全阈值为0 ‑1之间的小数，且根据网络应用环境设定。 6.根据权利要求1所述的方法，其特征在于，所述执行了的基于基线方法的流量工程策略对应的状态信息表示方式为：所述基于强化学习方法的流量工程策略对应的状态信息表示方式为：或权　利　要　求　书 1/2 页 2 CN 114285751 A 2其中， st表示t时刻的网络状态信息，表示t时刻获得的基于基线方法的流量工程策略，表示t时刻获得的基于强化学习方法的流量工程策略， st+1表示执行了流量工程策略后下一时刻的网络状态信息， rt表示执行流量工程策略所获得的智能体给出的奖励，未被执行的基于强化学习的流量工程策略对应的奖励为0 。 7.根据权利要求1所述的方法，其特征在于，所述强化模块包括价值神经网络和策略神经网络，其中，所述步骤S4包括： S41、从经验回放数据集中随机采样第一预设比例的样本形成第一训练集，从示范数据集中随机采样第二预设比例的样本形成第二训练集； S42、基于第一训练集，采用批量梯度下降方式更新价值神经网络和策略神经网络的参数，其中，价值神经网络的损失为其第一数据集中的样本上的损失，策略神经网络的损失为其在第一训练集中的样本上的损失与其在第二训练集的样本上的模仿损失之和，所述模仿损失为策略神经网络生成的策略与第二训练集中样本对应策略之间的距离。 8.根据权利要求7 所述的方法，其特征在于，第一预设比例和第二预设比例均通过实验确定，其中，如果当前被执行的策略是基于基线方法的流量工程策略，则此次采样的第二预设比例为0 。 9.一种用于实现如权利要求1 ‑8任一所述方法的系统，其部署在SDN网络环境中，其特征在于，所述系统包括：智能体，包括基线模块和强化学习模块，其中，所述基线模块用于根据网络拓扑信息和业务流信息获得基于基线方法的流量工程策略，所述强化学习模块用于根据网络拓扑信息和业务流信息获得基于强化学习的流量工程策略；安全判断模块，用于对比基于基线方法的流量工程策略和基于强化学习方法的流量工程策略的安全性，并选择安全性高的策略进行执行；示范数据集，用于存储被执行了的基于基线方法的流量工程策略对应的状态信息；经验回放数据集，用于存储基于强化学习方法的流量工程策略对应的状态信息存储到经验回放数据集；其中，所述强化学习模块被配置为：在一个执行周期内，每次执行了被选择的策略后从经验回放数据集和示范数据集中采集样本进行训练。 10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至8任一所述方法的步骤。 11.一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至8中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114285751 A 3

专利 一种流量工程方法及系统

专利一种流量工程方法及系统