Kerminal
免费体验
本篇目录
一、适用场景二、准备工作三、快速开始四、性能优化(可选)五、常用命令示例六、最佳实践七、预期效果八、常见问题
Kerminal QR Code扫码添加官方社群
文档/操作指南/相关实践/芯片适配

芯片适配

芯片适配相关实践

——本指引将帮助你使用 Kerminal 快速完成模型在国产芯片上的适配与优化工作。

一、适用场景


  • 将 PyTorch/TensorFlow 模型从 NVIDIA GPU 迁移到昇腾、寒武纪等国产芯片
  • 在新硬件平台上部署 vLLM、SGLang 等推理框架
  • 对已适配模型进行推理性能优化

二、准备工作


2.1 环境要求

项目 要求
硬件 目标芯片服务器(如昇腾 910B)
驱动 已安装芯片驱动和运行时
基础软件 平台基础算子库或框架后端插件(如 torch_npu、vLLM-ascend)
Kerminal 已安装并配置密钥

2.2 安装 Kerminal

安装流程:

支持三种平台的安装脚本。

Mac / Linux:

curl -fsSL https://release.kerminal.cn/install.sh | bash

Windows:请使用 PowerShell 终端下载安装

irm https://release.kerminal.cn/install.ps1 | iex

看到猫咪图案即表示启动成功。

三、快速开始


3.1 启动任务

在目标服务器上启动 Kerminal,用自然语言描述你的需求:

我需要在这台昇腾 910B 服务器上部署 Qwen3-14B 模型

提示:不需要一次描述清楚所有细节,可以通过多轮对话逐步明确需求。

3.2 Kerminal 自动执行

Kerminal 会自动完成以下工作:

  • 环境检测
    • 识别硬件型号、驱动版本
    • 检查依赖库安装状态
    • 评估软件栈兼容性
  • 方案规划
    • 分析模型结构和算子依赖
    • 制定分步骤适配计划
    • 预估任务耗时
  • 自动适配
    • 配置运行环境
    • 修复依赖冲突和链接错误
    • 处理模型格式转换

3.3 查看进度

适配过程中,Kerminal 会实时显示:

  • 当前执行步骤
  • 遇到的问题及解决方案
  • 预计剩余时间

四、性能优化(可选)


基础适配完成后,可继续请求性能优化:

帮我优化推理性能,目标是单卡最高吞吐量

Kerminal 会自动尝试多种优化策略:

优化类型 说明
算子融合 减少内核调用开销
内存优化 优化显存分配和访问模式
KV Cache 提升长序列推理效率
并行策略 充分利用多核计算能力

五、常用命令示例


基础适配

把这个 PyTorch 模型适配到当前昇腾服务器
帮我部署 vLLM 推理服务
我要在 910B 上跑 Llama3-8B

问题排查

运行报错了,帮我看看怎么解决
这个算子不支持怎么办
为什么推理速度这么慢

性能优化

优化推理延迟,目标 100ms 以内
帮我提升批处理吞吐量
对比一下优化前后的性能

六、最佳实践


推荐做法

  • 硬件在环:直接在目标服务器上运行 Kerminal,确保适配结果可直接部署
  • 提供上下文:将相关文档、代码规范放入工作目录,Kerminal 会自动参考
  • 分阶段验证:先完成基础适配验证正确性,再进行性能优化
  • 保存经验:适配完成后,经验会沉淀到平台,后续类似任务更快完成

避免做法

  • 在模拟环境中适配后再迁移到真实硬件
  • 一次性提出过于复杂的需求
  • 跳过功能验证直接追求性能

七、预期效果


指标 传统方式 Kerminal
基础适配 2-3 天(资深)/ 1 周(普通) 约 30 分钟
性能优化 数周 2-6 小时
人工投入 全程参与 仅需发起任务
技术门槛 需熟悉目标平台 自然语言交互

八、常见问题


Q: 适配过程中遇到问题怎么办?

Kerminal 会自动尝试解决。如果需要你的输入,会主动询问。你也可以随时用自然语言描述遇到的问题。

Q: 支持哪些芯片平台?

目前支持华为昇腾系列,其他平台持续扩展中。

Q: 适配后的代码可以直接用于生产吗?

是的。Kerminal 直接在目标硬件上验证,适配完成即可部署。

Q: 如何提升适配成功率?

确保基础软件(驱动、运行时、框架插件)已正确安装。提供清晰的任务描述。