• 讲座信息

11.18 | HiveD: Sharing a GPU Cluster for Deep Learning with Guarantees

2020.11.13

演讲者韩震华 博士
头衔职位微软亚洲研究院(上海)研究员
时间2020 年 11 月 18 日(周三)下午 2:00
地点江湾校区交叉二号楼 A4009 会议室
联系人陈阳 chenyang@fudan.edu.cn

演讲简介

随着深度学习训练需求的不断扩张,很多组织和机构都会选择自建多租户集群来共享昂贵的 GPU 资源。然而现有的 GPU 集群管理方案因为使用了 GPU 配额(Quota)机制,可能导致严重的共享异常(Sharing Anomaly)现象:某些租户的深度学习任务甚至比在私有集群中性能更差。为了解决该问题,我们提出了一个新的多租户 GPU 集群管理方案 HiveD。它能够 100% 保证共享安全(Sharing Safety),同时又不失一般性地和任何任务调度策略兼容。HiveD 首先提出了一种新的资源抽象,被称为 Cell(类比蜂巢 Hive 中的蜂窝)。HiveD 通过多级 Cell 来描述 GPU 集群拓扑的层级组织。在 Cell 的基础上,HiveD 会为每个租户提供一个虚拟私有集群(Virtual Private Cluster,简称 VC)。每个租户的 VC 显式定义了它拥有的各级 Cell 的配额。为了在保证共享安全的同时,又能灵活地分配 GPU 资源, 我们为 HiveD 设计了一个 Buddy Cell Allocation 算法,来把 VC 中的逻辑 Cell 和物理 GPU 进行动态绑定。我们在理论上证明了该算法能 100% 提供共享安全。此外该算法还可以降低物理集群的 GPU 碎片化、更灵活地处理设备故障、支持动态重配置 VC。HiveD 的论文已发表在 USENIX OSDI 2020。到目前为止,HiveD 已经在微软内部数个集群上线并稳定运行了超过 11 个月,以负责调度各种生产和科研性质的深度学习任务。(HiveD 开源链接:https://github.com/microsoft/hivedscheduler)

关于讲者

韩震华博士,现任微软亚洲研究院(上海)研究员。主要研究领域包括机器学习系统、云计算、大规模集群资源管理、调度算法理论等。他目前已在系统和网络方向发表论文 20 余篇,包括 USENIX OSDI,IEEE/ACM ToN,IEEE INFOCOM,IEEE JSAC,ACM MobiHoc 等顶级会议和期刊。同时,他还在 IEEE INFOCOM 担任程序委员,并在 IEEE/ACM ToN 等期刊担任评审。他于 2020 年从香港大学获计算机科学系得博士学位,于 2014 年从电子科技大学电子工程学院获得学士学位。他的博士论文获得了香港大学优秀博士论文提名。