mx-qual 用户手册

概述

本文档介绍了 mx-qual 工具的使用方法。mx-qual 是基于 SOLA Runtime API实现的设备质量测试工具,主要用于检测设备的可用性、稳定性、性能等方面的指标。

使用方法

mx-qual 是一个命令行工具,可以通过 mx-qual -h 查看帮助信息。

Moffett Quality Inspection Application  v1.0.0
Usage: mx-qual [OPTIONS] SUBCOMMAND

Options:
  -h,--help                   Print this help message and exit
  --version                   Display program version information and exit

Subcommands:
  list                        List all devices detected on the system
  hardware_link               Run hardware link test
  pcie_bandwidth              Run PCIe bandwidth test
  memory_bandwidth            Run memory bandwidth test
  p2p                         Run peer to peer test
  compute                     Run computing power test
  stress                      Run stress test
  memtest                     Run hardware memory test

mx-qual 后面需要跟一个子命令去执行相应的测试,子命令的使用方法可以通过 mx-qual <子命令> -h 查看。

子命令说明

list

列出指定的设备信息,如果不指定设备,则列出所有设备信息。

测试命令示例:

输出结果示例:

hardware_link

运行硬件链路测试,测试驱动和所有设备的通信链路是否正常。

测试命令示例:

输出结果示例:

pcie_bandwidth

运行 PCIe 带宽测试,不指定设备时默认测试第一个设备,可以通过-i指定设备的index,也可以通过-s指定设备的sn-s的优先级比-i高,若同时指定了-i-s,则只测试-s指定的设备。

测试的数据大小可以通过-d指定,单位为MB,默认为100MB,测试的循环次数可以通过-l指定,默认为1次。默认进行半双工测试,使用-f可以开启全双工测试。

测试命令示例:

输出结果示例:

memory_bandwidth

运行设备内存带宽测试,不指定设备时默认测试第一个设备,可以通过-i指定设备的index,也可以通过-s指定设备的sn-s的优先级比-i高,若同时指定了-i-s,则只测试-s指定的设备。

测试的数据大小可以通过-d指定,单位为MB,默认为100MB,测试的循环次数可以通过-l指定,默认为1次。

测试命令示例:

输出结果示例:

P2P

运行 peer-to-peer 带宽测试,不指定设备则默认测试所有设备,可以通过-i指定运行设备的 index,所有有效设备会两两配对进行测试。

测试命令示例:

输出结果示例:

stress

运行压力测试,不指定设备时默认测试所有设备,可以通过-i指定设备的index。测试的循环次数可以通过-l指定,默认为一次,一次循环大约需要2分钟,若需要测试一小时,那么可以指定-l 30

运行的前一分钟,会先让设备预热,不会监控设备状态。一分钟后,会监控设备的温度、功率和利用率,每隔一秒刷新一次,同时还会在当前目录下生成 mf-qual-stress.log 文件,可以用于后续分析。可以在程序运行过程中随时使用 Ctrl+C终止运行。

测试命令示例:

输出结果示例:

compute

运行算力测试。可以测试的算子类型有conv2dmultiply,可以通过conv2dmultiply指定。每个算子类型可配置的参数不同。

  • conv2d

  • 支持两种数据类型: int8bf16

  • 支持配置以下参数:

    1. sparsity : 8 / 16 / 32

    2. iochannel : 256 / 512 (ichannel = ochannel)

  • 固定的参数(用户无法指定):

    1. shape : 32

  • multiply

  • 仅支持一种数据类型: bf16

  • 固定的参数(用户无法指定):

    1. shape : 64

    2. ichannel : 256

测试命令示例:

输出结果示例:

memtest

这是一个参考MemTest86实现的用于测试硬件内存稳定性和可靠性的工具。

可以通过-i指定设备的index,默认运行所有设备。可以通过-t指定测试的类型,可以指定多个类型,类型的取值范围为0-10,具体的类型含义可以参考MemTest86的说明,默认是7。可以通过-l指定测试的循环次数,默认为1次。

测试命令示例:

最后更新于