Slurm超算集群跑代码教程
SLURM(Simple Linux Utility for Resource Management)是一种可扩展的工作负载管理器,已被全世界的国家级超级计算机中心广泛采用。 在算力中心GPU计算集群上,用户的所有计算任务和程序需要编写 SLURM 脚本,并在登 陆节点提交 SLURM 脚本。SLURM 脚本包含三个部分:
(1)预定义的任务资 源需求;
(2)预定义的环境设定或变量;
(3)命令行形式的可执行程序或脚本。
登陆集群
首先用easyconnect登陆集群专属vpn,例如(此处需要vpn的用户和密码)
登陆完vpn之后,才有权限使用ssh远程连接集群
使用远程ssh登陆集群,
此处需要服务器的用户名和密码
登陆完后,连接的是mgmt01节点,例如
配置anaconda以及python虚拟环境
和正常我们配置服务器环境的方法一样
anaconda可以放在home盘,环境都放home盘,代码数据要放在自己的data盘
配置环境可以参考我的科研第一步
配置完环境之后,运行代码的时候,不能直接使用python指令,而是需要在激活虚拟环境的前提