分布式资源管理系统通过协调硬件资源分配过程来实现最佳资源利用率和最大系统吞吐量,可以拆分为以下主要功能: **1. 作业管理子系统** *主要功能:* 作业提交、修改、重新运行和重新排队 作业状态检查和控制(暂停、恢复、信号处理) 作业优先级管理 作业会计和性能监控 检查点、重启和迁移功能 自定义作业启动器和执行环境 *支持的作业类型:* 批处理/脚本作业 交互式作业(X-Windows) 数组作业 MPI并行作业 依赖作业 **2. 物理资源管理子系统** *静态信息管理:* 集群架构(节点数、每节点CPU数) …