发布日志

SOLA Toolkit 3.4.0 发布说明

SOLA Toolkit 提供了 2 种安装方式:

  • runfile 安装包

  • deb 安装包

详见 SOLA Toolkit 安装指南。

主要组件版本

组件
名称
版本
支持架构
支持平台

SOLA Runtime Library

libsola.so

3.4.0

x86_64

Linux

MOFFETT Linux Driver

N/A

3.4.0

x86_64

Linux

MOFFETT Firmware

N/A

1.0.14

x86_64

Linux

MOFFETT Management Library

libmfml.so

1.0.4

x86_64

Linux

MOFFETT SMI

mx-smi

2.0.0

x86_64

Linux

MOFFETT QUALIFICATION

mx-qual

1.0.0

x86_64

Linux

MOFFETT Firmware Tools

mx-mft

1.0.1

x86_64

Linux

MOFFETT MCU

N/A

4x05

x86_64

Linux

组件更新说明

SOLA Runtime

  • 新增特性

    • 支持 SOLA_VISIBLE_DEVICES 环境变量,用于指定 SOLA Runtime 可见的设备,默认所有设备可见

    • 支持进程独占模式,SOLA 进程启动时独占所有可见设备,其他进程无法使用

    • MFLaunchConfig 结构体新增 iter_modeiter_count 字段,用于在一次launch kernel中进行多次迭代

    • 支持launch kernel可以忽略timeout,用于压测

    • 新增mfrtMemoryBandwidthTest API,用于测试设备内存带宽

    • 实现获取设备信息接口

    • 支持动态的launch kernel配置,可配置动态执行次数和trigger

    • 支持模型加载时配置任意核与输入输出的地址和偏移

    • 优化初始化设备的流程,改为并行初始化可见设备

    • 优化离线日志的格式和内容

    • 优化Host Memory的分配,无需root权限即可分配大内存

  • 修复问题

    • 修复mfrtMemcpy接口返回值永远为MF_SUCCESS的问题

    • 修复内存池分配内存时可能会分配到不同device的问题

    • 修改日志和profile文件的权限为所有用户可读写,日志输出路径为/var/log/moffett/sola

  • 已知问题

    • 在某些支持var的大模型下,并行加载模型可能会导致模型加载失败

MOFFETT Linux Driver

  • 新增特性

    • 支持温控策略,90度降频降压,100度停止nncore运算,110度重启设备

    • 设备在uboot模式,SMBUS可以获取到设备信息

    • 增加硬件错误分类信息输出,可以通过dmesg查看

    • 支持MCU OTA

    • 新增固件 OTA 工具 mx-mft

    • 优化mmap 申请方式,支持申请大内存

    • Device UMD 进程异常退出后可以配再次调起

MOFFETT Management Library

  • 新增特性

    • 新增获取额定功率的接口

    • 新增获取进程信息接口

MOFFETT SMI

  • 新增特性

    • 新增子命令 list,用于展示各device的信息概览及卡对应关系

    • 新增子命令 query,用于获取每个device的完整信息

    • 新增子命令 select,用于由用户自定义获取的信息格式

    • 新增子命令 reboot,用于重启设备

    • 优化SMI UI展示的样式

  • 修复问题

    • 展示信息内容不再因为终端大小而被截断

    • 卡展示模式下,正确显示卡的功率

MOFFETT QUALIFICATION

  • 新增特性

    • 新增list子命令,用于展示device信息

    • 新增hardware_link子命令,用于测试硬件链路

    • 新增pcie_bandwidth子命令,用于测试PCIe带宽

    • 新增memory_bandwidth子命令,用于测试设备内存带宽

    • 新增p2p子命令,用于测试SPU之间数据传输的带宽和延迟

    • 新增compute子命令,用于测试算子算力

    • 新增stress子命令,用于设备压力测试

    • 新增memtest子命令,用于测试硬件内存可靠性与稳定性

最后更新于

这有帮助吗?