查看详细作业信息
scontrol show job显示全部作业信息,scontrol show job JOBID或scontrol show job=JOBID显 示作业号为JOBID的作业信息,输出类似下面:
JobId=77 JobName=gres\_test.bash
UserId=hmli\(10001\)
GroupId=nic\(10001\)
MCS\_label=N/A
Priority=4294901755
Nice=0
Account=\(null\)
QOS=normal
JobState=RUNNING
Reason=None
Dependency=\(null\)
Requeue=1
Restarts=0
BatchFlag=1
Reboot=0
ExitCode=0:0
RunTime=00:00:11
TimeLimit=UNLIMITED
TimeMin=N/A
SubmitTime=2019-12-01T20:10:15
EligibleTime=2019-12-01T20:10:15
AccrueTime=2019-12-01T20:10:15
StartTime=2019-12-01T20:10:16
EndTime=Unknown
Deadline=N/A
SuspendTime=None
SecsPreSuspend=0
LastSchedEval=2019-12-01T20:10:16
Partition=GPU-V100
AllocNode:Sid=login01:1016
ReqNodeList=\(null\)
ExcNodeList=\(null\)
NodeList=gnode01
BatchHost=gnode01
NumNodes=1
NumCPUs=1
NumTasks=1
CPUs/Task=1ReqB:S:C:T=0:0:\*:\*
TRES=cpu=1,node=1,billing=1
Socks/Node=\*
NtasksPerN:B:S:C=0:0:\*:\*
CoreSpec=\*
MinCPUsNode=1
MinMemoryNode=0
MinTmpDiskNode=0
Features=\(null\)
DelayBoot=00:00:00
OverSubscribe=OK
Contiguous=0
Licenses=\(null\)
Network=\(null\)
Command=/home/nic/hmli/gres\_test.bash
WorkDir=/home/nic/hmli
StdErr=/home/nic/hmli/job-77.err
StdIn=/dev/null
StdOut=/home/nic/hmli/job-77.log
Power=
主要输出项:
参数 | 描述 |
---|---|
JobId | 作业号 |
JobName | 作业名 |
UserId | 用户名(用户ID) |
GroupId | 用户组(组ID) |
Priority | 优先级,越大越优先,如果为0则表示被管理员挂起,不允许运行。 |
Nice | Nice值,越小越优先,20到19。 |
Account | 记账用户名 |
QOS | 作业的服务质量 |
JobState | 作业状态:– PENDING:排队中。– RUNNING:运行中。– CANCELLED:已取消。– CONFIGURING:配置中。– COMPLETING:完成中。– COMPLETED:已完成。– FAILED:已失败。– TIMEOUT:超时。– NODE FAILURE:节点失效。– SPECIAL EXIT STATE:特殊退出状态。 |
Reason | 原因 |
Dependency | 依赖关系 |
Requeue | 节点失效时,是否重排队,0为否,1为是。 |
Restarts | 失败时,是否重运行,0为否,1为是。 |
BatchFlag | 是否为批处理作业,0为否,1为是。 |
Reboot | 节点空闲时是否重启节点,0为否,1为是。 |
ExitCode | 作业退出代码 |
RunTime | 已运行时间 |
TimeLimit | 作业允许的剩余运行时间 |
TimeMin | 最小时间 |
SubmitTime | 提交时间 |
EligibleTime | 获得认可时间 |
StartTime | 开始运行时间 |
EndTime | 预计结束时间 |
Deadline | 截止时间 |
PreemptTime | 先占时间 |
SuspendTime | 挂起时间 |
SecsPreSuspend | 0 |
Partition | 队列名 |
AllocNode:Sid | 分配的节点:系统ID号 |
ReqNodeList | 需要的节点列表 |
ExcNodeList | 排除的节点列表 |
NodeList | 实际运行节点列表 |
BatchHost | 批处理节点名 |
NumNodes | 节点数 |
NumCPUs | CPU核数 |
NumTasks | 任务数 |
CPUs/Task | CPU核数/任务数 |
ReqB:S:C:T | 所需的主板数:每主板CPU颗数:每颗CPU核数:每颗CPU核的线程数:启动的作业数,<tasks_per_node>:<tasks_per_baseboard>:<tasks_per_socket>:<tasks_per_core> |
CoreSpec | 各节点系统预留的CPU核数,如未包含,则显示*。 |
MinCPUsNode | 每节点最小CPU核数 |
MinMemoryNod | 每节点最小内存大小,0表示未限制 |
MinTmpDiskNode | 每节点最小临时存盘硬盘大小,0表示未限制。 |
Features | 特性 |
Gres | 通用资源 |
Reservation | 预留资源 |
OverSubscribe | 是否允许与其它作业共享资源,OK允许,NO不允许。 |
Contiguous | 是否要求分配连续节点,OK是,NO否。 |
Licenses | 软件授权 |
Network | 网络 |
Command | 作业命令 |
WorkDir | 工作目录 |
StdErr | 标准出错输出文件 |
StdIn | 标准输入文件 |
StdOut | 标准输出文件 |