芯片适配 - Kerminal 文档

——本指引将帮助你使用 Kerminal 快速完成模型在国产芯片上的适配与优化工作。

一、适用场景

将 PyTorch/TensorFlow 模型从 NVIDIA GPU 迁移到昇腾、寒武纪等国产芯片
在新硬件平台上部署 vLLM、SGLang 等推理框架
对已适配模型进行推理性能优化

二、准备工作

2.1 环境要求

项目	要求
硬件	目标芯片服务器（如昇腾 910B）
驱动	已安装芯片驱动和运行时
基础软件	平台基础算子库或框架后端插件（如 torch_npu、vLLM-ascend）
Kerminal	已安装并配置密钥

2.2 安装 Kerminal

安装流程：

支持三种平台的安装脚本。

Mac / Linux：

curl -fsSL https://release.kerminal.cn/install.sh | bash

Windows：请使用 PowerShell 终端下载安装

irm https://release.kerminal.cn/install.ps1 | iex

看到猫咪图案即表示启动成功。

三、快速开始

3.1 启动任务

在目标服务器上启动 Kerminal，用自然语言描述你的需求：

我需要在这台昇腾 910B 服务器上部署 Qwen3-14B 模型

提示：不需要一次描述清楚所有细节，可以通过多轮对话逐步明确需求。

3.2 Kerminal 自动执行

Kerminal 会自动完成以下工作：

环境检测
- 识别硬件型号、驱动版本
- 检查依赖库安装状态
- 评估软件栈兼容性
方案规划
- 分析模型结构和算子依赖
- 制定分步骤适配计划
- 预估任务耗时
自动适配
- 配置运行环境
- 修复依赖冲突和链接错误
- 处理模型格式转换

3.3 查看进度

适配过程中，Kerminal 会实时显示：

当前执行步骤
遇到的问题及解决方案
预计剩余时间

四、性能优化（可选）

基础适配完成后，可继续请求性能优化：

帮我优化推理性能，目标是单卡最高吞吐量

Kerminal 会自动尝试多种优化策略：

优化类型	说明
算子融合	减少内核调用开销
内存优化	优化显存分配和访问模式
KV Cache	提升长序列推理效率
并行策略	充分利用多核计算能力

五、常用命令示例

基础适配

把这个 PyTorch 模型适配到当前昇腾服务器
帮我部署 vLLM 推理服务
我要在 910B 上跑 Llama3-8B

问题排查

运行报错了，帮我看看怎么解决
这个算子不支持怎么办
为什么推理速度这么慢

性能优化

优化推理延迟，目标 100ms 以内
帮我提升批处理吞吐量
对比一下优化前后的性能

六、最佳实践

推荐做法

硬件在环：直接在目标服务器上运行 Kerminal，确保适配结果可直接部署
提供上下文：将相关文档、代码规范放入工作目录，Kerminal 会自动参考
分阶段验证：先完成基础适配验证正确性，再进行性能优化
保存经验：适配完成后，经验会沉淀到平台，后续类似任务更快完成

避免做法

在模拟环境中适配后再迁移到真实硬件
一次性提出过于复杂的需求
跳过功能验证直接追求性能

七、预期效果

指标	传统方式	Kerminal
基础适配	2-3 天（资深）/ 1 周（普通）	约 30 分钟
性能优化	数周	2-6 小时
人工投入	全程参与	仅需发起任务
技术门槛	需熟悉目标平台	自然语言交互

八、常见问题

Q: 适配过程中遇到问题怎么办？

Kerminal 会自动尝试解决。如果需要你的输入，会主动询问。你也可以随时用自然语言描述遇到的问题。

Q: 支持哪些芯片平台？

目前支持华为昇腾系列，其他平台持续扩展中。

Q: 适配后的代码可以直接用于生产吗？

是的。Kerminal 直接在目标硬件上验证，适配完成即可部署。

Q: 如何提升适配成功率？

确保基础软件（驱动、运行时、框架插件）已正确安装。提供清晰的任务描述。