清华AITrans2——基于BBRv1的踩坑实现和总体小结

“清华举办的第二届网络传输竞赛，Aitrans2

清华主办的AITrans2。开始入坑的时候没想到这个比赛工作量这么大，特别我还是只有一个人肝的情况下。设计方案，设计算法，基于仿真实现（初赛决赛还是分别基于python和C++的两套系统）的工作量都不小。主要时间也有限，累。赛题地址。

有幸进入最终决赛，决赛的系统有一些功能不支持，导致决赛里方案没有完全实现，最后名次比较靠后，得了一个“最佳个人参赛奖”，答辩效果也很比较一般。感觉这次参赛对自己的结果并不满意。

赛题目标是“时延确定性业务的传输”。核心目标是如何保证尽可能多业务的deadline。赛题分为两个大任务————“发哪个”和“发多快”，即：1.多个数据Block发送顺序的调度策略。2.拥塞控制算法。如图所示：

1.Block发送顺序的调度策略

出乎我意料的是，大多数的选手在这个调度策略的选择上大多采用基于规则的策略。原以为会有很多基于AI的策略。

我的策略同样是基于规则的，通过分析QoE得分和不断地线上线下测试调整规则的嵌套逻辑。我的规则大概有10条左右，其中对分数提升最大的有两个rule，分别为Earliest Deadline First调度（即剩余时延最小的block优先被调度）和根据剩余大小分箱策略（对block的剩余大小）进行调度。

EDF调度是比较容易想到的一点，而根据size分箱是基于一个很简单的逻辑，即通过分析QoE的计算规则得出的结论。因为Block的大小差别动辄百倍差别（如一个语音块大小4000B，但一个数据块可能大小十万B），而优先级的大小仅有三种权重（1,2,3）。按照这个逻辑，就算有一个高优先级的Block(3级Block)，但它的数据块大小很大的话（十万B），那么它是不应该优先被发送。因为在相同的时间内，我们可以发送50个4000B大小的块。50倍和3倍的差距，我选择50倍。当然，这只是针对在这种QoE规则下的一种策略，毕竟，如何设计QoE本身的规则和公式也是一个玄学。

答辩过程中了解到，95%的选手思路是和我相似的，但还有几只队伍的方案让我觉得印象深刻：1.中科大的队伍通过梯度下降的方式寻找最优的规则组合，这比盲搜显然是一个更有效率的方法。2.另一只队伍将一系列的选block规则转化为一个新的优先级公式，避免了很多if-else的判断。这些都是很有借鉴意义的操作。

2.拥塞控制算法

拥塞控制算法是一个经久不衰的Topic。针对本次比赛对时延敏感业务的需求，选手的方案大致分为两类：传统的方案的和基于深度强化学习的方案。我的方案是基于BBRv1的基本实现。

基于AI的方案，特别是基于深度学习的方案，我其实是不太熟悉的。本次比赛，决赛选手中用到的包括DQN、DDPG、Dualing-DQN、PPO等等。不过在上决赛系统后，不少队伍似乎都出现了问题，导致最后在大网上跑的时候还是用的Baseline的reno算法。

基于深度强化学习的拥塞控制方案似乎近期热度比较高，毕竟拥塞控制本质还是一个控制论的问题。但在答辩中有专家一直在提DQN方案的公平性问题。后续可以好好研究下基于强化学习的拥塞控制相关综述，看看现在AI用在拥塞控制上到底有哪些优势，又有哪些明显需要改进的地方。

而在非AI的方案中，BBR是被选择最多的基础方案（很不幸地又成为大多数），有5-6个队都采用的BBR作为基础算法。大家的想法应该都类似，如果是在时延敏感场景下，基于丢包的拥塞控制机制应该效果不是很好，那么在RTT-based的拥塞控制机制里，BBR应该是近年比较出圈的方案（官方放的参考论文里，第一篇就是BBR）。只是不太理解的是，为什么同为基于BBR的方案，跑分的差距却很大？可能跟具体的工程实现也有很大关系。

除了BBR外，选手们使用的其他的拥塞控制机制，包括COPA，PCC，Fast-TCP等等，也有选手提到了谷歌的Swift。这些拥塞控制机制我都不是特别熟悉（因为之前博士期间主要做二层内容，去到H司后又做了一些三层的东西，对四层的东西仅限于一些科普和PPT）。后续也可以好好研究下相关综述，看看CC今年来都有哪些发展。

3.BBRv1实现踩坑小结

网络上关于BBR原理的资料很多，关于BBR的分析更是多如牛毛。百度上的资料质量参差不齐，它可以帮助你理解，但对于宏观的感觉还是差点意思。这里列举三篇对我帮助比较大的材料：

BBR原始论文: BBR: Congestion-Based Congestion Control

BBRv1 IETF draft：https://tools.ietf.org/html/draft-cardwell-iccrg-bbr-congestion-control-00

论文中有针对BBR的详细介绍，里面有一个巨详细的状态图：https://repository.library.northeastern.edu/files/neu:m044dz373/fulltext.pdf

下面用最简单的文字描述下我对BBR的理解：

首先，BBR在任何状态下，都用到两个全局变量：即估算带宽和估算链路RTT。当每收到一个ACK时，会更新估算带宽；而当测量RTT超过10s没有发生变化时，则进入更新RTT估算过程。估算的带宽通过delivered_rate计算。
BBR状态机主要为四个状态：Startup，Drain，ProbeBW，ProbeRTT。
Startup：该状态类似传统TCP的慢启动，即指数增加窗口（以2/ln2的gain增加cwnd和pacing_rate），以便快速探测当前管道的带宽上限，当估计的带宽增量小于阈值（标准为25%）时，进入Drain状态；
Drain：该状态中cwnd继续增加，但发送速率开始降低，目的是为了清空队列。理想情况下，队列清空时，BBR工作在最优操作点附近。
ProbeBW：该状态继续探测是否还有剩余带宽，采用一个循环序列（8个不同的增益参数）调整cwnd。
ProbeRTT：如果探测到的RTT在一段时间（标准为10s）内都没有减小的话，那么需要重新探测链路RTT，即进入ProbeRTT状态。

在整个实现过程中，困扰我最大的其实是带宽估算过程中，Application limited（rate limited）的问题。即，当发送端没有数据可以发送/或发送断续时，此时的带宽估算值会变成发端的发送速率。此时，带宽增量的降低并不是由于链路利用率过高而导致，而是因为发送速率不够快。此时，BBR会提前进入Drain和ProbeBW阶段，导致带宽浪费严重（？）。关于这个讨论，有一个thread。https://groups.google.com/g/bbr-dev/c/ymEStT_t3LI/m/lUSn0-HKBgAJ

注意到标准中对Applictaion limited状态是有规定的，即如果发现到时Application limited的状态的话，那么会有一个对应的flag标志。携带此标志位的数据包不参与带宽计算。但仿真系统，包括决赛的容器里都没有实现该功能，因此状态切换的阈值就全乱了。后来为了适应这个系统，直接将Startup结束的标志从带宽不再增加，改为RTT增加超过某阈值。这种修改在初赛单流的情况下应该效果非常好，但是在实际场景成千上万条流中实验，效果真的有待检验。

4.总结

这次参赛仍然是抱着学习的心态参加的，毕竟传输层的内容之前并不熟悉，连BBR之前也就知道它是RTT-based的方案，知道它的基本思想。这次终于手把手把它的状态机实现了一遍（仿真平台/实际系统）。而且通过其它小组的方案，了解了这么多传输层相关的知识，感觉还是很有收获的。

知道的越多，才知道自己不知道的越多。这次比赛了解到了自己工程能力还不够强悍，在单枪匹马作战的情况下，到最后也还剩余部分初赛实现的功能没有成功实现在决赛系统上；另一方面，对拥塞控制理论的了解仍然非常欠缺，很多情况下知其然但并不知其所以然，仅仅图快为了工程实现；第三，比赛期间的时间管理能力也存在一些问题，拖延的情况比较严重，纠结方案而没有实际行动，执行力相当欠缺；最后，自己的表达的技能退化得很厉害，这次答辩的PPT内容和现场效果都不太满意，讲话和展示的目的是为了让对方听懂，达到更好交流的目的。

综上，有不同的经历人才会有进步，认识自己的不足才能找到进步的方向，这次比赛的收获非常大。

keep going

1.Block发送顺序的调度策略

2.拥塞控制算法

3.BBRv1实现踩坑小结

4.总结

CATALOG

FEATURED TAGS