全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111483364.6 (22)申请日 2021.12.07 (71)申请人 中国科学院计算 技术研究所 地址 100190 北京市海淀区中关村科 学院 南路6号 (72)发明人 王凌豪 王淼 张玉军  (74)专利代理 机构 北京泛华伟业知识产权代理 有限公司 1 1280 代理人 王勇 (51)Int.Cl. H04L 41/0896(2022.01) H04L 41/12(2022.01) H04L 41/14(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)H04L 9/40(2022.01) (54)发明名称 一种流量工程方法及系统 (57)摘要 本发明提供一种流量工程方法,所述方法采 用智能体, 所述智能体中部署有根据网络拓扑信 息和业务流信息获取流量工程策略的基线模块 和强化学习模块, 所述方法包括在预设的周期内 重复执行如下步骤: S1、 基于网络拓扑信息和业 务流信息, 通过智能体分别获取由基线模块得到 的基于基线方法的流量工程策略和强化学习模 块得到的基于强化学习方法的流量工程策略; S2、 对比基于基线方法的流量工程策略和基于强 化学习方法的流量工程策略的安全性, 并执行安 全性高的策略; S3、 将被执行了的基于基线方法 的流量工程策略对应的状态信息存储到示范数 据集, 将基于强化学习方法的流量工程策略对应 的状态信息存储到经验回放数据集, 从经验回放 数据集和示范数据集中采集样本训练强化学习 模块。 权利要求书2页 说明书11页 附图3页 CN 114285751 A 2022.04.05 CN 114285751 A 1.一种流量工程方法,所述方法采用智能体, 且所述智能体中部署有根据网络拓扑信 息和业务流信息获取流量工程策略的基线模块和强化学习模块, 其特征在于, 所述方法包 括在预设的周期内重复执 行如下步骤: S1、 基于网络拓扑信息和业务流信息, 通过智能体分别获取由基线模块得到的基于基 线方法的流 量工程策略和强化学习模块得到的基于强化学习方法的流 量工程策略; S2、 对比基于基线方法的流量工程策略和基于强化学习方法的流量工程策略的安全 性, 并执行安全性高的策略; S3、 将被执行了的基于基线方法的流量工程策略对应的状态信息存储到示范数据集, 将基于强化学习方法的流量工程策略对应的状态信息存储到经验回放数据集, 从经验回放 数据集和示范 数据集中采集样本训练强化学习模块。 2.根据权利要求1所述的方法, 其特征在于, 所述预设的周期为根据实际应用场景需求 设置的执 行流量工程的时间。 3.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S2包括: S21、 分别评估基于基线方法的流量工程策略和基于强化学习方法的流量工程策略的 带宽; S22、 对比基于基线方法的流量工程策略和基于强化学习方法的流量工程策略的带宽, 强化学习方法的流量工程策略的带宽大于或等于基于基线方法的流量工程策略的带宽与 安全阈值的乘积时, 执行基于强化学习方法的流量工程策略, 基于强化学习方法的流量工 程策略的带宽小于基于基线方法的流量工程策略的带宽与安全阈值的乘积时, 执行基于基 线方法的流 量工程策略。 4.根据权利要求3所述的方法, 其特征在于, 所述步骤S21中通过如下方式评估不同策 略对应的带宽: Tt=∑Tij Tij=biwij/MAX(1.0, u) 其中, Tij表示业务流i在第j条路径上 的带宽, bi表示业务流i所需的带宽信息, wij表示 在当前流量工程策略下第i条流被分配在第 j条路径上的比例, u表 示第i条流在网络中的瓶 颈利用率, Ue表示在当前流量工程策略下业务流对每条链路的利用率, Pi,j表示业务流i的 第j条路径。 5.根据权利要求3所述的方法, 其特征在于, 所述安全阈值为0 ‑1之间的小数, 且根据网 络应用环境设定 。 6.根据权利要求1所述的方法, 其特 征在于, 所述执行了的基于基线方法的流 量工程策略对应的状态信息表示方式为: 所述基于强化学习方法的流 量工程策略对应的状态信息表示方式为: 或 权 利 要 求 书 1/2 页 2 CN 114285751 A 2其中, st表示t时刻的网络状态信息, 表示t时刻获得的基于基线方法的流量工程 策略, 表示t时刻获得的基于强化学习方法的流量工程策略, st+1表示执行了流量工程 策略后下一时刻的网络状态信息, rt表示执行流量工程策略所获得的智能体给出的奖励, 未被执行的基于强化学习的流 量工程策略对应的奖励为0 。 7.根据权利要求1所述的方法, 其特征在于, 所述强化模块包括价值神经网络和策略神 经网络, 其中, 所述 步骤S4包括: S41、 从经验回放数据集中随机采样第一预设比例的样本形成第一训练集, 从示范数据 集中随机采样第二预设比例的样本形成第二训练集; S42、 基于第 一训练集, 采用批量梯度下降方式更新价值神经网络和策略神经网络的参 数, 其中, 价值神经网络的损失为其第一数据集中的样本上的损失, 策略神经网络的损失为 其在第一训练集中的样本上的损失与其在第二训练集的样本上的模仿损失之和, 所述模仿 损失为策略神经网络生成的策略与第二训练集中样本对应策略之间的距离 。 8.根据权利要求7 所述的方法, 其特 征在于, 第一预设比例和第二预设比例均通过实验确定, 其中, 如果当前被执行的策略是基于 基线方法的流 量工程策略, 则此次采样的第二预设比例为0 。 9.一种用于实现如权利要求1 ‑8任一所述方法的系统, 其部署在SDN网络环境中, 其特 征在于, 所述系统包括: 智能体, 包括基线模块和强化学习模块, 其中, 所述基线模块用于根据网络拓扑信 息和 业务流信息获得基于基线方法的流量工程策略, 所述 强化学习模块用于根据网络拓扑信息 和业务流信息获得基于强化学习的流 量工程策略; 安全判断模块, 用于对比基于基线方法的流量工程策略和基于强化学习方法的流量工 程策略的安全性, 并选择安全性高的策略进行 执行; 示范数据集, 用于存 储被执行了的基于基线方法的流 量工程策略对应的状态信息; 经验回放数据集, 用于存储基于强化学习方法的流量工程策略对应的状态信 息存储到 经验回放数据集; 其中, 所述强化学习模块被配置为: 在一个执行周期内, 每次执行了被选择的策略后从 经验回放数据集和示范 数据集中采集样本进行训练。 10.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序 可被处理器执行以实现权利要求1至8任一所述方法的步骤。 11.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理 器执行时, 使得 所述电子设备实现如权利要求1至8中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114285751 A 3

.PDF文档 专利 一种流量工程方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种流量工程方法及系统 第 1 页 专利 一种流量工程方法及系统 第 2 页 专利 一种流量工程方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:38:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。