跳转至

集群概况

深圳校区高性能计算平台包含一套GPU集群,配置多台A100 40G、A30 24G计算节点,100G IB网络,高性能共享存储。仅限校内访问,新注册用户允许透支20000点(200元)。详情见帮助手册:http://hpc.hitsz.edu.cn/docs/zh/home

1. 独占实例和Slurm共享

集群对外提供两种服务模式:独占模式(虚拟机和容器)和共享模式(Slurm公共集群)。整个GPU集群的服务器资源划分成了上面两块,一部分服务器用来提供独占环境,分别是instance(容器)资源池和gpu-vm(虚拟机)资源池,方便同学们部署自己的开发环境。一部分服务器部署slurm作为公共集群(hpc资源池),适合处理计算量大的任务。管理员会根据使用情况动态调整两边的服务器数量。

1.1 独占模式

http://hpc.hitsz.edu.cn/ 登录后,点击上方“+申请资源”,选择对应的模板,比如Ubuntu虚拟机,Pytorch容器,根据需求配置cpu、内存、GPU,等待分配资源,若同一时间用的人较多需要排队,资源分配后需手动启动实例。

实例默认运行24小时,时间一到会自动关机,保存在磁盘的数据不会丢失。不用的时候请手动停机并释放资源减少其他同学的等待时间。该模式跟本地使用电脑完全一样,只是跑在了云端,可以通过浏览器交互,更推荐使用ssh远程访问。“应用”模板又细分为虚拟机、容器、集群、Jupyter等类别。若选择虚拟机,GPU的驱动需自行安装,容器共享宿主机服的GPU驱动无需安装,CUDA版本可根据需求自行切换。

1.2 Slurm公共集群共享模式

该模式适合处理需要较长运算时间的任务,无图形界面,纯命令行操作。需要按照slurm支持的作业方式提交任务,提交之后会任务进入队列等待资源分配,分配到资源后会直接运行直到任务结束。整个slurm集群的资源是共享的,不属于某一个人,任务分配到资源开始计算,计算结束后自动释放资源。

1.3 独占实例和slurm任务资源限制

为提高资源利用率,对独占实例和slurm作业都做了资源限制。

  • 独占实例单次运行的时间目前限制是24小时,时间到了会自动关机并释放资源,请在不用的时候及时手动释放。如果分配后30分钟内没开机会自动释放。虚拟机实例停止后所有数据都在,可以在回收站中恢复分配。

  • slurm共享集群:

  • gpu分区(A100)每用户同一时间最多提交2个作业、单个作业最多为1卡,每作业最大运行时长 2 * 24 小时,交互作业时间限制是12小时。
  • gpu-a30分区(A30)每用户同一时间最多提交2个作业、单个作业最多为2卡,每作业最大运行时长 2 * 24 小时,交互作业时间限制是12小时。

  • slurm共享集群登录节点做了资源限制,以防在登录节点跑计算任务占用大量资源。若直接在登录节点配置conda环境可能会提示内存不足等错误,可使用salloc申请一个交互式作业进行环境配置,登录节点和计算节点环境共享。

2. 独占实例GPU驱动

  • gpu-vm队列上的Ubuntu 等虚拟机应用,独立的Guest OS,驱动独立,不依赖宿主机,可以自行更新驱动,配置的是GPU直通。
  • instance队列上的Pytorc等容器应用,与宿主机共享同一个Linux内核,利用Namespace进行资源隔离,利用Cgroups进行资源限制,没有Guest OS,与宿主机共享驱动,无法自行更新驱动。

虚拟机和容器的CUDA版本都可以自行升级。

3. 计费标准

校内:CPU资源0.05元/核时,GPU资源1.5元/块GPU/小时,超过默认存储(1000GB)12元/100GB/月。

校外:CPU资源0.2元/核时,GPU资源6元/块GPU/小时,超过默认存储48元/100GB/月。需申请vpn访问。

当前默认1000GB包括500GB块存储和500GB文件存储,默认存储大小将根据集群存储的使用率做适当调整。内存当前不收费,付费用户的内存等配额可调整。