IBM HS22 刀片集群系统用户手册




    IBM HS22 刀片集群系统户手册

    第二版













    南京学高性计算中心编制

    2010 年 11 月 6 日
    目 录

    IBM HS22 刀片集群系统硬件架构软件配置 ……………………………… 3
    11 硬件架构 ………………………………………………… 3
    111 系统总体拓扑图 …………………………………………………………3
    112 节点命名规 …………………………………………………………3
    113 登录节点配置 …………………………………………………………3
    114 计算节点配置 …………………………………………………………4
    115 存储系统配置 …………………………………………………………4
    116 网络交换机配置 …………………………………………………………4
    12.软件 …………………………………………………………5
    121 操作系统 ……………………………………………………………5
    122 系统理工具 ……………………………………………………………5
    123 作业理调度系统 …………………………………………………………5
    124 编译软件 ……………………………………………………………5
    125 应软件 ……………………………………………………………5
    二IBM 刀片集群系统接入方式 …………………………………………………6
    21 Windows 户接入方式 ……………………………………………………6
    22 Linux 户登录传输文件 …………………………………………………8
    三Linux 系统常命令 ……………………………………………………9
    31 基目录文件操作 …………………………………………………9
    32 文件包解包 ………………………………………………11
    33 关进程命令 ………………………………………………12
    34 命令帮助参考 ………………………………………………12
    35 文编辑工具 vi 快速参考 ………………………………………………13
    四编译环境 ………………………………………………15
    41 编译系统 ………………………………………………15
    42 数学核心库 MKL ………………………………………………15
    43 行编译环境 ………………………………………………16
    五作业理调度系统 ………………………………………………18
    51 lsf 基介绍 ……………………………………………………18
    52 LSF 作业生命周期流程 ………………………………………………18
    53 IBM HS22 集群系统队列划分 ………………………………………………18
    54 队列理调度策略 ………………………………………………19
    55 利 LSF 递交作业 ……………………………………………………19
    56 作业理 …………………………………………………………22
    57 查系统队列配置 …………………………………………………………22
    58 查机器分组情况 …………………………………………………………22
    59 查机器载荷情况 …………………………………………………………23
    510 查节点 CPU 负载情况 ……………………………………………23
    511 统计户机时 …………………………………………………………23

    2IBM HS22 刀片集群系统硬件架构软件配置
    11 硬件架构
    111 系统总体拓扑结构图



    112 节点命名规:
    根途系统节点分:
    (1) 登录节点:c01n01 c01n02…c01n10 应网址:172191811…172191820
    (2) 计算节点:c02n01c02n02…c02n14
    c03n01c02n02…c03n14
    ……
    c28n01c28n02…c28n10
    c29n01c29n02…c30n14
    c30n01c30n02…c30n14
    (3) 行存储节点: fnode01fnode20
    (4) 作业理调度节点:qnode01qnode02qnode03
    113 登录节点配置:
    — HS22 刀片中心 9U 高度2X2900W 电源20Gb14 口 Infiniband 交换
    机双千兆 14 口外六口交换机双百兆理网口14 刀片插槽
    — 刀片 2 路 Intel Xeon 5550 267GHz 4 核处理器
    — 节点配备 24GB DDRIII ECC 1333GHz 存
    — 置 2 块 146GB SAS 硬盘
    — 置 2 双 1000Mbps 网卡
    — 块 Infiniband(20GbS)网卡
    — 块光纤存储卡(4GbS)
    3— 登录节点包括 5 套网络:千兆外部接入网络千兆作业调度Infiniband
    行计算互联网络百兆理网络光纤存储网络
    114 计算节点配置:
    — HS22 刀片中心 9U 高度2X2950W 电源20Gb14 口 Infiniband 交换
    机千兆 14 口外六口交换机双百兆理网口14 刀片插槽
    — 刀片 2 路 Intel Xeon 5550 267GHz 4 核处理器
    — 节点配备 12GB DDRIII ECC 1333GHz 存
    — 置 146GB SAS 硬盘
    — 置 1000Mbps 网卡作业理调度
    — 块 Infiniband(20GbS)网卡作业行计算高速互联
    — 计算节点包括 3 套网络:千兆作业调度理网络Infiniband 行互联
    网络百兆理网络
    115 存储系统配置:
    存储系统分两部分:
    第部分作户家目录备份 IBM DS5300 SAN 存储构成SATA 磁
    盘阵列裸容量 128TB双存储控制器16GB 享缓存16 4Gb 光纤机接
    口4Gb 光纤存储网络做成两 GPFS 文件系统通光纤接口分连接 10
    登录节点提供 2GB IO 总带宽户家目录登录节点路径:
    gpfssan1homeusername gpfssan2homeusername
    第二部分作行计算时时工作缓区总 20 台 IBM X3650 机架服
    务器组成:
    (1) Infiniband 存储网络数传输带宽 20Gbs连接集群系统中节点
    (2) 配置成两 GPFS 网络文件系统挂接 10 登录节点 402 计算节点
    户开辟块 tmp 区挂接家目录户需行计算作业脚
    运行数关程序拷贝该区 bsub 递交作业
    (3) 20 存储节点分命名 fnode01~fnode20存储节点通 SAS 卡 6 块
    450GB SAS 盘直连中块硬盘作系统盘 5 块盘做成 raid5 磁盘阵
    列 提供 320Mbs IO 带宽通 Infiniband 交换机高速网络系统连
    接组成 1 gpfs 文件系统提供 6GBs IO 总带宽
    存储节点挂载路径:gpfsTMP
    116 网络交换机配置:
    1161 两台 IB 交换机: Voltaire ISR 2012 20Gbs GPFS 文件系统网络
    计算网络台 288 口接入登录节点存储节点计算节点两台交换机互联
    1162 四台 BNT 交换机: G8000 BNT Rack Switch 外网接入作业调
    度网络 台两万兆口行48 口千兆接入计算存储调度登录节点
    1163 三台 DLink 百兆交换机:D_link 10100M Switch 系统理网络






    412 软件
    121 操作系统
    RedHad Linux 53 64 bits Enterprise Server Edition 提供标准 64 位 Linux 操作环

    122 系统理工具 IBM xCAT 13

    123 作业理调度系统 Platform LSF 72

    124 编译软件:
    Intel C 110C++ 110
    Intel Fortran 110
    Intel MKL100 库
    OpenMPI
    Intel MPI32
    Mpich 20

    125 应软件:
    1.Gaussian 03
    2 VASP
    3 AMBER
    4 WRF
    5 MM5
    6 Material Studio




















    5二IBM 刀片集群系统接入方式
    中心接入校园万兆光纤交换机6 条千兆线路接入登录刀片中心交换机
    c01n01…c01n10 十登录节点
    般户开户时会新户设立户名初始密码户第次
    登录 passwd username 命令更改密码里 username 户名
    户建立账号时 已 bashrc 文件中设置基户软件环境
    户根实际需 修改 bashrc 文件变更软件工作环境
    校外户利南京学 VPN 校外 bras 先进入南京学校园网络利
    方式接入高性计算中心登录节点

    21 Windows 户接入方式
    211 利 FSecure SSH Client 登录界面:



    212 利 Xmanager 进行登录:
    6
    213 利 Putty 登录界面:

    7214 传载户数
    户作业脚源程序输入数传登录节点户目录 计算结
    果载 Windows NTXP 环境建议户 FsecureSSH transfer 客户端工具
    Linux 系统推荐 sftp 客户端工具

    然许支持 SSH 协议终端工具

    22 Linux 户登录传输文件
    221 Linux 户直接开普通终端 X 终端登录键入:ssh 172191811
    进入登录界面
    [zql@hpm ~] ssh 172191819
    zql@172191819's password
    Last login Mon Nov 1 152039 2010 from 20211946100
    [zql@c01n09 ~]
    222 scp sftp 等命令传输文件数
    利 sftp 传输远程机文件前目录
    sftp zql@2021194623homezqltestf90
    利 scp r 传输远程机目录前目录
    scp r zql@20211946100homezqlNAG
    远程机利 scp –r 复制 c01n09 目录
    [zql@hpm ~] scp r zql@172191819gpfssan1homezqltest
    zql@172191819's password
    testc 100 2128 21KBs 0000
    testf 100 2573 25KBs 0000
    8三Linux 系统常命令
    31 基目录文件操作
    311 查前目录 pwd
    pwd
    gpfssan1hometest

    312 改变前目录 cd <相绝路径>
    cd 户级目录回户目录
    cd testtt 前目录 test 目录 tt 目录里
    cd srcdoc 级目录 src 目录 doc 目录里
    cd gpfssan1appsintelCompiler 指定路径

    313 创建目录 mkdir <目录名>
    mkdir data 前目录创建 data 目录
    mkdir testttdata 前目录 test 目录 tt 目录创建 data 目录

    314 删空目录 rmdir <目录名>
    rm data 删空目录 data 删非空目录

    315 移动换名 mv <源文件原目录> <目标文件目标目录>
    mv vitex vitxt 文件 vitex 换名 vitxt
    mv data data1 目录 data 换名 data1

    316 复制文件目录 cp <参数> [源文件] [目标文件路径]
    cp –a document doc 前目录 document 原属性复制前目录 doc
    目录中
    cp –r data maya 前目录 data 目录复制级目录 maya 目录中

    317 删文件目录 rm <参数> <文件名>
    rm –rf data 递强制删前目录 data 目录中全部容 data 目录

    rm –i * 提问性删前目录文件回答 y yes 删提示文件

    318 输出文件列表 ls <参数> [目录文件名]
    ls l 列出前目录目录文件详细信息
    drwxrxrx 5 zql hpc 32768 Oct 13 1643 software
    rwxrr 1 zql hpc 3691 Nov 1 1512 vitex
    lrwxrwxrwx 1 zql hpc 6 Nov 1 1624 vitxt > vitex
    第字符位置表示文件类型d表示 software 目录表示 vitex
    普通文件l 表示链接文件面 9 字符位置分表示文件属组
    户户该文件读写执行权限r表示读w表示写x表示
    执行字段文件连接数面分属名组名文件字节数生成
    9修改文件时间文件目录名
    ls –la 列出前目录文件(包括文件名前加隐藏文件)信息
    ls lt 创建修改时间排列显示文件
    ls lS 文件排列显示文件
    ls 显示文件目录名

    319 统计前目录中文件子目录总 du <参数> [路径名]
    du –k KB 单位列出前目录子目录容量总容量
    du ms MB 单位列出前目录总容量
    du –h 动 GMK 单位列出前目录子目录容量总容量

    3110 显示文件全部容 cat <文件名>
    cat vitex

    3111 显示文件开头部分容 head <参数> <文件名>
    head –n 20 vitex 显示 vitex 前 20 行

    3112 显示文件末尾部分容 tail <参数> <文件名>
    tail –n 30 vitex 显示 vitex 30 行

    3113 分屏查文件容 more less <参数> <文件名>
    more vitex 分屏查文件 vitex 容
    less readmedoc 分屏查文件 readmedoc 容
    执行命令输出信息较时利输入输出重定方式分屏查:
    ls –al|more
    ls –la |less

    3114 创建空文件 touch <文件名>
    touch kl 创建空文件 kl

    3115 改变文件属性 chmod <参数> <属性> <文件名目录>
    chmod 755 kl 文件 kl 改成读写执行组户准读执

    chmod –R +rwx test前目录 test 目录子目录文件改成读写
    执行组户属性变

    3116 搜索符合条件文件 find <路径> name <文件名>
    find gpfssan1apps –name ifort gpfssan1apps 目录开始查找名 ifort
    文件

    3117 文件中搜索匹配字符串 grep <参数> <字符串> <文件路径名>
    常参数:i 忽略写r 子目录递搜索v 反匹配模式n 显示匹配行
    行号
    grep –inr MPI_Init testf90 testf90 文件中查找 MPI_Init 字符串行
    10
    3118 统计文件字符数词数行数 wc <参数> <文件名>
    wc list 列出 list 文件行数词数字符数
    405 3631 31906 list
    wc –l list 列出 list 文件行数
    405 list

    3119 较两文件处 diff <文件名 1> <文件名 2>
    diff joinc join1c

    32 文件包解包
    321 文件包解包工具 tar <参数> <目标文件路径文件名> <源文件路径>
    tar cvf datasrctar src 前目录 src 目录中目录文件包成
    srctar 放级目录 data 目录中
    tar xvf srctar 前目录 srctar 前目录解开

    322 文件压缩解压缩 gzip <参数> <文件名> gunzip <参数> <文件名>
    gzip testtar testtar 文件压缩 testtargz时删 testtar 文件
    gunzip testtargz testtargz 文件解压缩 testtar时删
    testtargz 文件
    323 文件压缩解压缩 bzip2 <参数> <文件名> bunzip2 <参数> <文件名>
    bzip2 testtar testtar 文件压缩 testtarbz2时删 testtar 文件
    bunzip2 testtarbz2 testtarbz2 文件解压缩 testtar时删
    testtarbz2 文件

    33 关进程命令
    331 列出进程信息命令 ps <参数>
    ps –ef
    UID PID PPID C STIME TTY TIME CMD
    root 1 0 0 Aug15 000001 init [3]
    mhgs 9540 9534 99 1412 010049 visd
    mhgs 9541 9531 99 1412 010047 visd
    中 UID 户号PID 进程号 PPID 父进程号 C 占 CPU 百分STIME
    递交进程时间TTY 递交进程时终端TIME 该进程运行时间 CMD 该进
    程执行命令

    332 杀死进程命令 kill <参数>
    kill 9 9540

    333 显示机务列表命令 top <参数>
    top
    PID USER PR NI VIRT RES SHR S CPU MEM TIME+ COMMAND
    1110424 root 15 0 12740 1124 816 R 03 00 00002 top
    3 root 34 19 0 0 0 S 00 00 00001 ksoftirqd0
    4 root RT 5 0 0 0 S 00 00 00000 watchdog0
    中 PID 进程号 USER 户名PR 优先级NI 优先级值负值高优先级正
    值低优先级 VIRT 进程虚拟存总量单位 kbVIRTSWAP+RES RES 进程
    未换出物理存单位 kbRESCODE+DATASHR 享存 S 进程状
    态 CPU CPU 时间占百分MEM 进程物理存百分TIME+ 进程 CPU
    时间总计单位 1100 秒 COMMAND 命令名
    34 命令帮助参考
    Linux 系统命令通命令帮助 man 命令等查询命令方法
    详细说明
    341 命令帮助 command –help
    ls –help
    命令简单法种方式查询
    342 命令详细说明 man <参数>
    man ls
    Man 命令出查询命令详细解释
    343 命令查询 info
    info ls

    Linux 命令两叁千里列出常少数命令户命令兴趣
    请查阅相关手册联机帮助


    35 文编辑工具 vi 快速参考
    采文模式终端提供GUI 图形模式户编程编辑文
    文件时部分 vi 命令
    vi 编辑器格式:
    vi <文件名>
    面出 vi 编辑器快速参考

    ******************************************************************
    vi 快速参考
    ******************************************************************
    vi 分三种工作模式行模式命令模式插入模式
    *******************************************************************
    行模式
    *******************************************************************
    exp 前表达式 exp
    12exp 表达式 exp
    w 编辑缓区容写磁盘
    w newfile 编辑缓区容写新文件
    w >> file 编辑缓区容追加文件
    w file 绝写文件
    q 退出编辑
    q 退出编辑丢弃编辑缓区容
    wq 编辑缓区容写文件退出
    x 假需写盘退出
    f 编辑显示文件信息
    r 读文件缓区
    r file 读指定文件缓区
    e 重新编辑文件
    e 重新编辑文件丢弃编辑缓区容
    e file 编辑指定文件
    6 光标移第六行
    38d 删第 38 行
    49m12 移动 49 行第 12 行
    25co 13 复制 25 行第 13 行
    59w file 写第 59 t 行文件
    soldnew 前行中新字符串换第老字符串
    soldnewg 前行中新字符串换老字符串
    39soldnew 39 行中新字符串换第老字符串
    soldnew 行中新字符串换第老字符串
    soldnewg 行中新字符串换老字符串
    set nu 显示行号
    set nonu 取消显示行号
    set all 显示全部设置
    set list 设置显示见字符
    ************************************************************
    命令模式
    ************************************************************
    hjkl 光标左右移动
    G 光标文件行
    3G 光标第三行
    0 光标前行首
    光标前行尾
    H 光标屏幕顶部
    M 光标屏幕中部
    L 光标屏幕底部
    n 重复次搜索
    N 重复次搜索
    x 删光标处字符
    dw 删光标处词
    13 dd 删行
    D 删行尾
    d0 删行首
    dG 删文件尾
    4dd 删 4 行
    u 取消改变
    * 重做次改变
    Y 拷贝行
    5Y 拷贝五行
    P 粘贴光标
    p 粘贴光标
    J 行前行相连接
    4J 四行前行相连接
    >> 右移动前行
    3>> 右移动三行
    << 左移动前行
    3<< 左移动三行
    ^d 前翻屏
    ^u 翻屏
    ZZ 假需写盘退出 vi
    ****************************************************************
    插入模式
    ****************************************************************
    a 光标插入
    A 行尾插入
    cw 改变词
    C 改变行
    i 光标前插入
    I 行首插入
    o 光标插入行
    O 光标插入行
    r 换字符
    R 换行 Esc 结束
    s 置换字符进入插入状态 Esc 结束
    S 置换行进入插入状态 Esc 结束
    Esc 返回命令模式
    **********************************************************************




    14四编译环境
    系统装两套编译器套 Linux 系统带 GNU 编译器包括 GNU Fortran GNU
    CC++等套 Intel Compiler 111 刀片系统 CPU Intel Xeon Nehalem
    4 核处理器更支撑强烈建议户 Intel 编译器 应软件特殊需


    41 编译系统
    411 GNU Fortran GNU CC++ f77 f95 命令usrbin 中
    编译链接常命令
    G77 Fortran 程序编译链接 优化选项 O2 O3
    例:单进程 FORTRAN 程序编译链接
    g77 –O2 –o mytest mytestf
    cc gcc g++ c++等 CC++程序编译链接 优化选项 O
    O2 O3
    gfortran –O3 –o mytest mytestf
    cc gcc g++ c++等 CC++程序编译链接 优化选项 O
    O2 O3

    例:单进程 C 程序编译链接
    gcc –O3 –o mytest mytestc
    关 g77gfortran gccg++命令更详细说明man 命令 查
    412 Intel Compiler
    软件装gpfssan1appsintelCompiler111064binintel64 目录中支持
    C C++ FORTRAN90 FORTRAN95
    编译链接常命令
    icc Intel 公司 C 语言编译器
    例:单进程 C 程序编译链接
    icc –O2 –o tt ttc
    ifort Intel 公司 FORTRAN 语言编译器
    例:单进程 FORTRAN 程序编译链接
    ifort –O2 –o tt ttf
    编译器更命令参数请man 命令 查

    42 数学核心库 MKL
    开放源码程序调量数学函数进行种计算长期积累已
    较成熟标准化数学库中常见诸线性代数方面 BLASLAPACKScaLAPACK
    等等系统 intel MKL 动态静态数学库功包括:
    线性代数 BLAS LAPACK
    线性代数 ScaLAPACK
    线性代数 稀疏矩阵解算器
    快速傅立叶转换分布式存处理器(集群)
    15量数学库
    矢量机数生成器
    IntelMKL 安装 gpfssan1appsintelCompiler111064mkl 目录

    43 行编译环境
    IBM HS22 刀片集群两类行计算种单节点 SMP 架构享存行计
    算 OpenMP类分布式消息传递 MPI 行计算

    431 OpenMP 程序编译运行
    OpenMP组硬件软件商(DECIntelIBMSGI)联合开发编程标准OpenMP
    行实际单系统享存计算机进行Intel C++ Fortran for Linux
    编译器支持 OpenMP 行需利编译命令结合 –openmp 编译选项进行编译例

    icc –O2 o myomp openmp myompc
    OpenMP C 程序 myompc 编译执行程序 myomp
    ifort o myomp openmp myompf90
    OpenMP FORTRAN 程序myompf90 编译执行程序 myomp
    OpenMP运行般运行前通设置环境变量OMP_ NUM _THREADS控制进程数例
    bash 中利 export OMP_ NUM _THREADS8控制进程数8(8节
    点里两颗CPU8核)
    bsub命令递交作业 bsub –x –np 4 myprogomp 里x 指定作业独占该节点
    资源然np 8 关OpenMP编程请参考关文献书籍
    面出计算πOpenMP完整例子仅供参考:源程序名pif90
    program Compute_pi
    integer*4 ni
    real*8 wxsumpifa
    f(a)4d0(1d0+a*a)
    n100000000
    w1d0n
    sum0d0
    OMP PARALLEL DO PRIVATE(x)SHARED(w)REDUCTION(+sum)
    do i1n
    xw*(i05d0)
    sumsum+f(x)
    enddo
    OMP END PARALLEL DO
    piw*sum
    print *'compute pi'pi
    stop
    end
    程序中 do 循环部分进行 openMP 行
    编译:% ifort –O2 o pi openmp pif90
    16递交作业 % bsub –n 8 pi
    Job <35328> is submitted to default queue
    执行结果: more output35328
    compute pi 314159265358982
    Sender LSF System
    Job was executed on host(s) <8*c07n12> in queue as user
    Successfully completed
    Resource usage summary
    CPU time 062 sec
    Max Memory 3 MB
    Max Swap 29 MB
    Max Processes 1
    Max Threads 1
    The output (if any) is above this job summary
    作业分配 c07n12 节点占8核
    样程序单进程计算花费 378 秒 openMP 行计算 062 秒
    行效率达 76

    432 MPI 程序编译运行
    MPI 实设计规范标准提供量消息传递理函数支持
    CC++ Fortran 语言编写程序中调绑定编程语言MPI
    标准遵标准软件实现具体应程序应该加修改重
    新编译运行标准化带优点目前常见支持 InfiniBand 网络 MPI 实现
    MVAPICH MVAPICH2 OpenMPI (注意 OpenMP 区)高级编程语言支持方面
    GNUPortland Group (PGI)IntelPathScale Open64 CC++
    Fortran7790 编译器具体语言编写程序编译调相应命令参书籍
    里采行环境 Intel 公司 MPI该 MPI 支持 MPI20 标准
    Intel MPI 32 软件安装gpfssan1appsintelimpi321009bin64 目录中运行
    环境设置文件 mpivarssh常编译命令mpif77mpif90mpiifortmpigccmpig77
    mpigxxmpiicc mpicc 等常行运行命令 mpirun mpiexec 等
    编译行源程序例:
    mpiicc –O3 –o tc tcc
    里 tcc MPI 行 C 语言编写源程序O3 指定优化级o tc 指定
    生成运行文件名果指定运行文件名动生成 aout

    mpiifort –O3 –o tt ttf
    里 ttf MPI 行 FORTRAN 语言编写源程序O3 指定优化级o tt
    指定生成运行文件名果指定运行文件名动生成 aout
    运行程序例:
    mpirun –n 4 –np 32 tt
    里n 4 np 32 系统申请 4 节点 32 CPU(核)tt 执行行文件
    mpirun –np 8 tc
    里np 8 系统申请 8 CPU(核)tc 执行行文件
    17五 作业理调度系统
    南京学高性计算中心采 Platform 公司 LSF 资源调度软件集群计算资源
    进行统调度理户提交作业时统 LSF 作业理系统进行作业提交理监
    控删卸载等操作

    51 lsf 基介绍
    LSF HPC 智化基调度策略高性计算负载均衡理系统通集中监控
    调度分析联网计算机负载LSF HPC 限度享计算机 CPU存磁盘License
    等计算资源IBM HS22 集群系统安装集成 LSF HPC 70
    52 LSF 作业生命周期流程

    户登录节点 bsub 命令递交作业作业调度机接收放匹配队列里排队等
    系统满足该作业资源条件作业分配相关节点进行计算计算结束时系统
    登录节点出计算结果报告错误报告相关信息
    注:作业提交登录节点 c01n01…c01n10

    53 IBM HS22 集群系统队列划分
    Qseq
    户作业串行进程提交队列C02C03 C04 刀片中心节点调度
    先进先运行策略调度
    qsmall
    规模应作业队列限制务进程数 2—8 进程先进先运行策略
    调度C11C10C09C08C07C06C05C04C03 C02 刀片中心
    节点调度
    qmedium
    中规模应作业队列限制务进程数 9—64 进程先进先运行策略
    调度C12C13C14C15C16C17C18C19C20C21 C22 刀片中
    心节点调度
    Qlarge
    户作业队列限制务进程数 9512 进程先进先运行策略调
    度C30C29C27C26C25C24C23C22 刀片中心节点调度
    队列实际运行情况进行调整

    1854 队列理调度策略
    „ qseq 队列:
    (1) 串行作业默认调度队列
    (2) Qmedium qsmall 队列资源够情况抢占 suspend 相关 qseq
    队列作业
    „ qsmall 队列:
    (1) 规模计算队列
    (2) 优先 qseq 队列应节点区域调度资源够抢占 qseq 队列
    „ qmedium 队列:
    (1) 中规模作业调度队列队列 CPU 数目 8 整数倍
    (2) 队列 qlarge 队列抢占
    (3) 优先 qsmall qseq 队列应节点区域调度资源够抢占 qsmall qseq
    队列
    „ qlarge 队列:
    (1) 作业调度队列 CPU 数目必须 8 整数倍
    (2) qlarge 队列调度策略采 8cpunode 限制措施严格 FIFO 方式预约节点
    资源
    — 述队列中户具相优先级
    — 特殊说明外队列作 cpunode 限制采 FIFO 方式预约节点资源遵
    循 fairshare 调度策略

    55 利 LSF 递交作业
    便理充分利计算资源规定户登录计算节点样户通
    LSF 递交作业 LSF 动分配调度计算资源
    作规模超级计算机系统效利众处理器核心提供计算力需
    强作业调度理系统统户交互接收提交类计算务合理分配
    计算资源户作业指派具体节点执行户说需关心计算具体里
    进行系统会动优化原进行调度仅方便户更提高整系
    统利效率作业理系统整计算机系统中重软件环境目前中心
    IBM 刀片集群计算机系统作业理系统 Platform 公司 LSF 70 (Load
    Sharing Facility) 作业理系统

    551 设置 LSF 环境变量
    bash
    gpfssan1appslsfconfprofilelsf
    env | grep LSF
    LSF_SERVERDIRgpfssan1appslsf70linux26glibc23x86_64etc
    LSF_LIBDIRgpfssan1appslsf70linux26glibc23x86_64lib
    LSF_VERSION70
    LSF_BINDIRgpfssan1appslsf70linux26glibc23x86_64bin
    XLSF_UIDDIRgpfssan1appslsf70linux26glibc23x86_64libuid
    LSF_ENVDIRgpfssan1appslsfconf
    19
    552 作业提交命令 bsub
    5521 递交作业缺省队列:
    [test1@c01n01 run] bsub a intelmpi n 48 mpirunlsf wrfexe
    系统显示:
    LSB_SUB_RES_REQselect[ (intelmpi) ]
    Job <321> is submitted to default queue < qmedium >
    中:
    a intelmpi 指定该作业 intel mpi
    n 48 指定作业进程数
    mpirunlsf LSF 系统脚放执行文件前
    wrfexe 执行文件
    里户没指定队列调度系统根户申请 CPU 数分配 qmedium 队列

    5522 递交作业指定队列:
    [test1@c01n01 run] bsub a intelmpi n 512 –q qlarge mpirunlsf wrfexe
    系统显示:
    LSB_SUB_RES_REQselect[ (intelmpi) ]
    Job <321> is submitted to queue
    中:
    q qlarge 指定作业放入 qlarge 队列排队

    5523 指定节点分配 CPU 方式提交作业:
    [test1@c01n01] bsub a intelmpi n 16 R span[ptile8] mpirunlsf aout
    里R span[ptile8] 指明调度系统需 8 整数倍分配 CPU

    5524 脚方式递交作业
    vi spoolfile 编辑脚文件
    #BSUB q qmedium
    #BSUB a intelmpi
    #BSUB n 32
    #BSUB R span[ptile8]
    cd gpfssan1homemghtest
    mpirunlsf tt
    bsub 递交脚文件
    bsub < spoolfile

    553 检查作业状态 bjobs
    bjobs 命令列出户提交作业作业号户名作业状态作业队列作业提交节
    点作业计算节点作业名作业提交时间等信息
    [test1@c01n01 run] bjobs
    JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME
    321 test1 RUN qmedium c01n01 8*c22n14 *wrfexe Dec 30 1439
    8*c30n14
    20 8*c23n13
    8*c29n13
    8*c25n06
    8*c25n07
    w wide format
    aps 等作业作业执行序排序显示
    u all 显示作业
    分页显示指定作业详细信息:
    [test1@c01n01 run] bjobs l 321 | more
    Job <321> User Project Status Queue Comma
    nd Share group charged
    Wed Dec 30 143945 Submitted from host CWD FV3_churun> Output File runoutputJ> Rerunnable 40 Processors Requested Req
    uested Resources
    Wed Dec 30 143949 Started on 40 HostsProcessors <8*c22n14> <8*c30n14> <8*c
    23n13> <8*c29n13> <8*c25n06> Execution Home fssan1hometest1> Execution CWD FV3_churun>
    Wed Dec 30 144458 Resource usage collected
    The CPU time used is 128464 seconds
    MEM 94878 Mbytes SWAP 188287 Mbytes NTHREAD 1031
    PGID 9856 PIDs 9856 9857 9859 10054 9861
    PGID 10136 PIDs 10136
    PGID 10137 PIDs 10137
    PGID 9934 PIDs 9934 9934 9934 9934 9934 9934 9934

    554 线检查作业执行结果命令:bpeek jobid
    [test1@c01n01 run] bpeek f 321
    << output from stdout >>
    starting wrf task 48 of 48

    555 查历史作业命令:bhist
    [test1@c01n01 run] bhist a
    Summary of time in seconds spent in various states
    JOBID USER JOB_NAME PEND PSUSP RUN USUSP SSUSP
    UNKWN TOTAL
    111 test1 *ep 1000 4302 0 1000 0 0 0 5302
    112 test1 *ep 1000 5305 0 1000 0 0 0 6305
    [test1@c01n01 run] bhist l 321

    Job <321> User Project Command
    Wed Dec 30 143945 Submitted from host to Queue CWD sTMPWRFV3_intelWRFV3_churun> Output File 21 V3_intelWRFV3_churunoutputJ> Rerunnable 40 Proces
    sors Requested Requested Resources

    Wed Dec 30 143949 Dispatched to 40 HostsProcessors <8*c22n14> <8*c30n14> <
    8*c23n13> <8*c29n13> <8*c25n06>
    Wed Dec 30 143949 Starting (Pid 9856)
    Wed Dec 30 143949 Running with execution home Execut
    ion CWD Execution Pi
    d <9856>

    Summary of time in seconds spent in various states by Wed Dec 30 144938
    PEND PSUSP RUN USUSP SSUSP UNKWN TOTAL
    4 0 589 0 0 0 593
    56 作业理
    561 结束作业进程命令:bkill –r jobid
    bkill r 112

    562 户作业挂起命令作业执行状态 RUN 转变 SUSPEND:bstop jobid
    bstop 112

    563 继续执行户作业命令作业执行状态 SUSPEND 转变 RUN:bresume jobid
    bresume 112

    57 查系统队列配置
    [zql@c01n01 ~] bqueues
    QUEUE_NAME PRIO STATUS MAX JLU JLP JLH NJOBS PEND RUN SUSP
    qseq 45 OpenActive 17 0 17 0
    qsmall 40 OpenActive 16 0 16 0
    qmedium 35 OpenActive 720 352 368 0
    qlarge 30 OpenActive 1008 128 880 0

    58 查机器分组情况
    [zql@c01n01 ~] bmgroup
    GROUP_NAME HOSTS
    c30 c30n13 c30n14 c30n01 c30n02 c30n03 c30n04 c30n05 c30n06 c30n07 c30n08 c30n09 c30n10 c30n11 c30n12
    c29 c29n13 c29n14 c29n01 c29n02 c29n03 c29n04 c29n05 c29n06 c29n07 c29n08 c29n09 c29n10 c29n11 c29n12
    c28 c28n01 c28n02 c28n03 c28n04 c28n05 c28n06 c28n07 c28n08 c28n09 c28n10



    2259 查机器载荷情况 lsload
    [zql@c01n01 ~] lsload |
    HOST_NAME status r15s r1m r15m ut pg ls it tmp swp mem
    c19n05 ok 100 100 100 44 00 0 13000 108G 10G 10G
    c24n09 ok 101 100 100 88 00 0 12992 108G 10G 10G
    c16n13 ok 110 110 110 100 00 0 13000 108G 9768M 10G
    c20n04 ok 120 120 120 100 00 0 13000 108G 10G 10G
    c21n11 ok 120 120 112 100 00 0 12992 108G 9936M 10G
    c22n12 ok 120 120 120 100 00 0 12992 108G 10G 10G

    510 查节点 CPU 负载情况 bhosts
    [zql@c01n09 ~] bhosts
    HOST_NAME STATUS JLU MAX NJOBS RUN SSUSP USUSP RSV
    c02n01 ok 8 3 3 0 0 0
    c02n02 ok 8 4 4 0 0 0
    c02n03 ok 8 0 0 0 0 0
    c08n01 closed 8 8 8 0 0 0
    c08n02 closed 8 8 8 0 0 0
    c08n03 closed 8 8 8 0 0 0
    511 统计户机时: bacct
    5111 统计指定户总机时情况 bacct u username
    bacct –u milu

    5112 统计指定已完成作业时间 bacct –b jobid
    bacct –b 44758
    23

    《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
    该内容是文档的文本内容,更好的格式请下载文档

    下载pdf到电脑,查找使用更方便

    pdf的实际排版效果,会与网站的显示效果略有不同!!

    需要 10 香币 [ 分享pdf获得香币 ]

    下载pdf

    相关文档

    IBM CRM 系统解决方案-CRM解决方案

    IBM CRM 系统解决方案-CRM解决方案  方案概述  CRM 系统   CRM Sales 系统是CRM产品系列中的重要产品。CRM 包括eSales、eService、eMarketi...

    9年前   
    591    0

    IBM

    IBM: 企业文化 IBM是有明确原则和坚定信念的公司, 这些原则和信念似乎很简单,很平常, 但正式这些简单、平常的原则和信念构成IBM 特有的企业文化。 IBM将整个企业文化从以产品、科...

    9年前   
    10188    0

    科研管理信息系统用户手册

    科研管理信息系统用户手册(一般科研人员分册)信息管理学院科研管理信息系统开发组二00六年十月前 言科研管理信息系统根据科研处实际业务需求开发,为科研管理人员服务,使用方便,既能实现对科研信息...

    3年前   
    455    0

    机关事业单位人事工资管理系统用户手册

    “机关事业单位人事工资管理系统V8.”是适应机关、事业单位信息化建设趋势,顺应一网通办、一次都不跑的智能化办公需求开发而成。适用于国家机关、事业单位人事信息管理的应用软件。该系统可以实现人员信息...

    2年前   
    627    0

    快速检测设备管理系统用户手册

    欢迎您使用“卫生监督现场快速检测设备管理系统用户手册”,本手册将具体描述系统在各业务模块操作和系统控制管理等方面的操作流程和注意事项,从而帮助您更好的了解并使用本系统。

    5年前   
    1438    0

    用户手册

       用户手册 黎宇 (转载自国家计算机标准和文件模板) 1 引言 1.1编写目的   说明编写这份用户手册的目的,指出预期的读者。 1.2背景   说明:   a...

    14年前   
    17197    0

    刀片采购个人工作总结

    刀片采购个人工作总结 公司领导: 新的一年即将来到,对2011年的工作我充满信心与期待,坚信在领导的带领下我们一定能创造新的篇章,达到新的起点。展望未来,回首过去我从基层车间到采购岗位上工...

    11年前   
    9709    0

    产业集群调研报告

    林区**化工业起步于上世纪90年代初**化总公司的组建,到90年代中期**化总公司为了解决**矿石的原料来源问题,公司一班人开始在我区**镇、**乡等地探矿、找矿并取得成功,随后又在宋洛乡、下...

    15年前   
    17477    0

    基于McWiLL的多媒体调度与集群通信系统-解决方案

    基于McWiLL的多媒体调度与集群通信系统-方案资讯解决方案  近日在翠宫举办的“2008 SCDMA无线宽带论坛年会”上,多家企业发布了自身的无线通信解决方案,笔者对ZED-3 (捷思锐)公...

    12年前   
    514    0

    浅谈集群融合通信系统在行业中应用-解决方案

    浅谈集群融合通信系统在行业中应用-方案资讯解决方案  集群通信系统,目前已成为除了公众移动通信系统之外的一个至关重要的专用通信系统。由于它所具有的指挥调度和应急的特点(如一键式对讲、紧急呼叫以...

    12年前   
    555    0

    IBM易管通信息系统天津丰益化工应用案例-信息系统解决方案

    IBM易管通信息系统天津丰益化工应用案例-信息系统解决方案  客户  天津丰益化工是一个主要经营化工产品的专业进出口公司,活跃于在中国北方化工市场及远东国际化工市场。丰益化工是拥有十多位员工,...

    9年前   
    617    0

    IBM:海关侦查OA系统应用成功案例-OA解决方案

    IBM:海关侦查OA系统应用成功案例-OA解决方案  处于东南沿海的福州海关由于其地理、环境与历史的原因,反走私形势十分严峻。为了更好地加强海关监管,加大打击走私的力度,福州海关技术处、侦查分...

    11年前   
    570    0

    **机场OA用户手册

    OA系统利用机场局域网和OA软件构建的一个办公通信平台,该平台和集团公司OA系统相连接,以实现机场办公自动化。利用机场OA系统完成邮件通信、信息发布、文档管理、工作流程自动化等等工作,并通过统一...

    5年前   
    3459    0

    IBM公司的管理

      IBM公司的管理 目錄 前言 壹.IBM的發展與產業環境 一.發展歷史 二.產業環境 三.IBM的現況與未來   貳.企業文...

    12年前   
    24641    0

    IBM员工手册

    目录概述您的公司您的工作和薪酬您的工作守则您的福利计划概述本手册向员工介绍公司体制,福利待遇和其他与工作有关的重要事项。本手册中的各项规定和计划已经公司审阅,公司将定期地监督执行情况,为了适应...

    9年前   
    734    0

    **市党的基层组织建设信息系统支部用户手册

    **市党的基层组织建设信息系统支部用户手册

    6年前   
    4206    0

    广州数控GSK928TE数控系统用户手册

    广 州 数 控 GSK928TE 数控系统用户手册 GSK928TE/GSK928TC 车床数控系统 使 用 手 册 广 州 数 控 GSK928TE 数控系统用户手册 前 言 感谢您选用广州...

    4年前   
    678    0

    上海信息委网上项目申报系统用户手册 V1.0

    上海信息委网上项目申报系统用户手册 V1.0用户手册上海德茂信息技术有限公司二零零五年四月目 录1.使用说明。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。...

    11年前   
    581    0

    IBM演示技巧教程

    There are three steps to making an IBM presentation:   Plan It offers advice on organizing your ...

    10年前   
    661    0

    IBM创意文案

    IBM创意文案  可变成本和香喷喷的米饭。  想想看,只需按下电饭锅的开关等上一刻钟,一锅香喷喷的米饭就摆在您面前了。这件事之所以这么简单,是因为您不必为了这锅米饭亲自种上两亩水稻,也不必去建...

    12年前   
    594    0
    下载需要 10 香币 [香币充值 ]
    亲,您也可以通过 分享原创pdf 来获得香币奖励!
    该文档为用户出售和定价!

    该用户的其他文档