学生论文读后感分享

less than 1 minute read

Published:

本篇博客记录硕士生马越同学阅读4篇Sigcomm论文的读后感。

Ekho: Synchronizing Cloud Gaming Media Across Multiple Endpoints

多端点云游戏的同步

摘要

线上游戏平台将他们的游戏传输到多个端点(也就是游戏用户端),这个过程可能通过了不同的网络通道,这也就导致了延迟的产生。(比如射击游戏,玩家之间的延迟差会使得高延迟的玩家体验很差)。所以作者提出了一个端到端的方法(Ekho)来同步到达玩家端的数据流。

具体方法是在游戏中混入人无法听到的噪声音频,然后在客户端监测混入的伪噪声音频来计算延迟,随后服务器根据延迟发送补偿后的数据流

在主流游戏上测试发现,这种方法不仅计算开销低,计算精度高,而且对语音,压缩和麦克风质量都具有很高的鲁棒性。在时常终端的wifi和蜂窝网络中,Ekho能保持10ms以下的延迟,而没有Ekho则是50ms的延迟。

补偿只能是延缓发送低延迟玩家的数据流来让高延迟玩家跟上,但如果是游戏端基数很大,并且有游戏端出现延迟高–>断开连接的方式,计算延迟的方法是否能立刻适应?

游戏端检测的声音数据为什么还会包括麦克风的质量?麦克风不是位于 终端设备-使用者 这条线上吗

最终Ekho保持的10ms以下的延迟,是不是由于网络波动的随机性导致的,理论上这种方法似乎可以做到0延迟

ZGaming: Zero-Latency 3D Cloud Gaming by Image Prediction

使用图片预测来做出0延迟的3D云游戏

摘要:

云游戏的延迟是最影响玩家体验因素之一,虽然玩家操作的延迟可以通过一些经典的网络基础方法来减弱,比如通过边缘缓存(edge cache)和 congestion control,但即便如此游戏玩家仍然无法满足。

这边文章提出了一个基于图片预测的3D云游戏系统(ZGaming)来抹除传统云游戏系统中的延迟

提出了三个结构:(1)基于质量驱动的3D缓存块来降低 “hole” 伪影。(2)一个需要服务器辅助的LSTM预测算法提高动态前景物体的预测精度。(3)一个预测性能驱动的自适应比特率策略来优化预测图像的质量。

在真实世界云游戏网络中的测试表明ZGaming可以将延迟从23ms降为0ms,还能提高5.4dB(这里指的是PSNR)的视频质量。

也就是说服务端实时预测得到后面几帧的画面并发送给玩家?而这些多预测的画面可以使得游戏延迟降低为0?

比特率是如何影响预测图像质量的?

Murphy: Performance Diagnosis of Distributed Cloud Applications

对分布式云应用程序的性能诊断

摘要:

现在基于云的应用程序的性能对分布式的应用程序组件inter-dependecies)和网络基础设施有很大的关系,因此我们很难直接判断基于云的应用程序的性能,也就出现了大量的工作来为企业判断其基于云的应用程序的性能评估。但是现存的方法要么忽略内部关系,要么则是需要causal dependencies,而这并不适合企业的环境。

这篇文章提出了一个高精度的自动化诊断系统(Murphy),它可以和实际企业环境中常用的遥测技术一起使用,Murphy利用常用监控数据中实体之间松散定义的关联按照马尔可夫随机场(MRF)学习在特定事件的条件下实体之间是如何相互影响的

在模拟的服务环境和大型企业的真实事件中进行评估发现,这个Murphy能在过去工作支持的限制性环境诊断误差(diagnosis error)降低1.35倍,对于更一般的情况能降低4.7倍。

限制性环境和一般性的环境有什么区别

好多斜体看不懂啊

诊断误差是怎么评估的,真实程序的性能有真实值?

也就是说Murphy通过对基于云的应用程序里所有的部分当作实体,通过MRF学习某条件下实体之间的相互影响是怎么样的,从而得到程序的真实性能。

Achelous: Enabling Programmability, Elasticity, and Reliability in Hyperscale Cloud Networks

摘要:

随着云计算的普及,越来越多的企业为了可靠性和按需计算开始向云端迁移。在单个虚拟私人云(VPC)中,实例的数量已经达到了百万级,从而出现了网络位置和底层硬件解耦,高弹性性能,高可靠性的挑战问题。结果学界主要在研究高速数据平面,虚拟化路由基础设施(virtualized routing infrastructure)

文章讲述了阿里云的网络虚拟化平台Achelous,其有三个增强超大规模VPC的设计:

(i) 基于数据平面和控制平面协同设计的新颖的分层编程架构; (ii) 分别用于无缝纵向扩展和横向扩展的弹性性能策略和分布式 ECMP 方案; (iii) 健康检查方案和透明的虚拟机实时迁移机制,确保故障转移期间的状态流连续性

实际中的评估结果说明,Achelous可以在单个VPC中扩展1.5M个具有弹性网络的虚拟机,同时还能减少25倍的编程时间,1s内完成99%的更新。对于故障转移,在虚拟机实时迁移的过程中压缩22.5倍的停机时间并确保99.99%的应用程序在此过程中不会出现卡顿。这个平台到目前为止已经实际运行了3年。

(i)完全看不懂,什么是数据平面,什么又是控制平面(ii)就是说这个achelous在弹性分配性能上可以做到一个VPC扩展1.5M个虚拟机,算法方案非常优秀,但是这个1.5M的极限是为什么,为什么更多就没法做到了??(iii)就是说它能实时迁移故障的虚拟机,同时还能保证流畅。

最后为什么说能减少编程时间,这是干啥的,类似于更新的时候对于添加了新数据后整个系统的编译吗