作业提交与管理

作业提交与管理

作业是用户提交到HPC集群进行高性能计算的基本工作单元。作业在集群队列中运行,并输出结果,集群会对其中的作业进行统一的调度管理。

1. 提交作业

平台提供多种作业提交方式,使用者可根据自身能力与需要自行选择。

应用模板方式提交

平台集成了大量行业应用软件并提供标准的公共作业模板,可以通过应用模板以表单方式快速提交作业。

  1. 登录HPC管理控制台,点击提交作业菜单,公共模板选项卡。
  2. 选择所需运行的软件,点击【立即使用】。
  3. 选择所需的软件版本,并确定进入作业模板表单页面。
  4. 在提交页面完成作业参数配置。
    类型 配置项 描述
    作业信息 作业名称 用于标识作业,方便用户管理作业。
    工作路径 作业数据在文件系统中的存放位置。
    默认工作路径为个人目录指定位置下系统自动创建的作业文件夹,也可以指定其他位置作为工作路径。
    标签 为作业绑定的标签,可用于管理分类与筛选。
    算力配置 队列 运行作业的算力队列。
    节点数 运行作业所需节点数量。
    节点数最小为1,最大为该队列最大节点数与配额限制作业最大运行节点数的最小集。
    CPU数 运行作业所需CPU核数。
    CPU数最小为1,最大为该队列最大CPU数与配额限制作业最大运行CPU数的最小集。
    GPU数 运行作业所需GPU数。只有支持GPU的队列可进行此参数配置。
    GPU数最小为1,最大为该队列最大GPU数与配额限制作业最大运行GPU数的最小集。
    最大运行时长 作业运行的最大执行时间,超过该时间,作业将被系统终止。该参数由系统配置,用户不可自行修改,受队列QOS限制
    每任务CPU核数 每个任务分配占用的CPU数量。默认值及最小值为1。
    软件其他参数 -- 软件可能存在一些其运行时所需的特定配置项,这些参数根据应用不同而不同。
  5. 点击【提交并执行】,将作业提交至集群进行执行。
  6. 点击【保存】,可将当前作业配置暂时存为待提交作业,可在调整信息或需要时再提交到集群执行。
  7. 也可将当前配置【存为私有模板】,以便后续使用私有模板配置进行快速的作业提交。

私有模板说明:

  • 私有模板是基于平台提供的公共模板,保存了用户指定配置参数值,可用于快速提交作业的自有作业模板。
  • 私有模板可以配置为用户私有,也可以共享给本客户下所有用户使用。
  • 进入编辑私有模板弹窗界面,通过修改“共享设置”进行调整。

编辑调度脚本方式提交

您也可以使用界面提供的编辑调度脚本方式来提交作业。

  1. 登录HPC管理控制台,点击提交作业菜单,编辑调度脚本选项卡。
  2. 在脚本配置页面,自行编写与调整所需运行的作业脚本。脚本来源可以是直接新建,也可以是从现有文件系统中的某个文件中加载。 执行时,该脚本将被保存在作业的工作目录下。

脚本编辑说明: 脚本中自行编辑的参数项和参数值会受到系统配额、QOS等参数限制,不合规归参数提交可能会导致作业运行失败或由调度器自动调度调整。

  1. 脚本编辑完成后,点击【提交并执行】。

E-shell方式提交

您可以通过E-shell方式访问登录节点,使用命令行执行所需作业。

  1. 登录HPC管理控制台,点击"提交作业"菜单,"E-Shell"选项卡。
  2. 在弹出的浏览器窗口下,将以所属计算用户登录节点。
  3. 使用命令行进行作业提交。

E-shell使用说明,请参阅 E-shell使用 >>

Slurm相关命令,请参阅 slurm常用命令行 >>

VNC登录

您可以通过VNC方式访问登录节点,使用命令行执行所需作业。

  1. 登录HPC管理控制台,点击"提交作业"菜单的"VNC"选项卡。
  2. 在弹出的浏览器窗口下,将以所属计算用户登录节点。

说明:VNC方式访问登陆节点,需要1-2分钟加载时间以建立访问连接。

2. 查看作业

2.1. 查看作业列表

作业管理菜单下,可以看到待提交作业、当前作业和历史作业的列表。

  • 待提交:已配置好作业参数信息,但还未向队列提交进入排队/运行机制的作业。
  • 当前作业:已向队列提交的作业,会有排队、运行、挂起等多种状态。
  • 历史作业:已结束的作业。包含 完成、失败、取消等状态的作业。

详细说明可参阅 作业状态与操作说明 >>

2.2. 查看作业详情

在作业列表中,点击作业名可以进入作业详情,查看作业的基本信息、文件信息、运行日志、监控情况等。

3. 作业状态与操作说明

阶段 状态 说明 可进行的操作
待提交 待提交 已配置好作业参数信息,但还未向队列提交进入排队/运行机制。 修改:修改作业的配置参数。
提交:提交作业到队列
删除:删除该作业
当前作业 排队 现时资源不足,作业在排队等待资源分配。 终止:手动结束当前作业;
克隆:快速新建并提交一个与当前作业相同配置参数的作业。
运行 作业正在运行 挂起:暂时挂起,挂起的作业时间不计入作业运行计量;
重新运行:重新运行该作业;
终止:手动结束当前作业;
克隆:快速新建并提交一个与当前作业相同配置参数的作业。
挂起 停止排队或运行,暂时挂起 继续运行:继续运行该挂起的作业,作业将重新进入排队/运行机制;
终止:手动结束当前作业;
克隆:快速新建并提交一个与当前作业相同配置参数的作业。
强制挂起 作业被管理员强制挂起,且不可自行其他操作。 --
历史作业 完成 作业已运行完毕。 克隆:快速新建并提交一个与当前作业相同配置参数的作业。
取消 手动终止了作业。
失败 作业运行失败。
超时 作业未在限制时间内运行完成,被系统终止。
未知 未知状态原因,引起作业出现未定义状态。

个结果匹配 ""

    无结果匹配 ""