文档/操作指南/相关实践/芯片适配
芯片适配
芯片适配相关实践
——本指引将帮助你使用 Kerminal 快速完成模型在国产芯片上的适配与优化工作。
一、适用场景
- 将 PyTorch/TensorFlow 模型从 NVIDIA GPU 迁移到昇腾、寒武纪等国产芯片
- 在新硬件平台上部署 vLLM、SGLang 等推理框架
- 对已适配模型进行推理性能优化
二、准备工作
2.1 环境要求
| 项目 | 要求 |
|---|---|
| 硬件 | 目标芯片服务器(如昇腾 910B) |
| 驱动 | 已安装芯片驱动和运行时 |
| 基础软件 | 平台基础算子库或框架后端插件(如 torch_npu、vLLM-ascend) |
| Kerminal | 已安装并配置密钥 |
2.2 安装 Kerminal
安装流程:
支持三种平台的安装脚本。
Mac / Linux:
curl -fsSL https://release.kerminal.cn/install.sh | bash
Windows:请使用 PowerShell 终端下载安装
irm https://release.kerminal.cn/install.ps1 | iex
看到猫咪图案即表示启动成功。
三、快速开始
3.1 启动任务
在目标服务器上启动 Kerminal,用自然语言描述你的需求:
我需要在这台昇腾 910B 服务器上部署 Qwen3-14B 模型
提示:不需要一次描述清楚所有细节,可以通过多轮对话逐步明确需求。
3.2 Kerminal 自动执行
Kerminal 会自动完成以下工作:
- 环境检测
- 识别硬件型号、驱动版本
- 检查依赖库安装状态
- 评估软件栈兼容性
- 方案规划
- 分析模型结构和算子依赖
- 制定分步骤适配计划
- 预估任务耗时
- 自动适配
- 配置运行环境
- 修复依赖冲突和链接错误
- 处理模型格式转换
3.3 查看进度
适配过程中,Kerminal 会实时显示:
- 当前执行步骤
- 遇到的问题及解决方案
- 预计剩余时间
四、性能优化(可选)
基础适配完成后,可继续请求性能优化:
帮我优化推理性能,目标是单卡最高吞吐量
Kerminal 会自动尝试多种优化策略:
| 优化类型 | 说明 |
|---|---|
| 算子融合 | 减少内核调用开销 |
| 内存优化 | 优化显存分配和访问模式 |
| KV Cache | 提升长序列推理效率 |
| 并行策略 | 充分利用多核计算能力 |
五、常用命令示例
基础适配
把这个 PyTorch 模型适配到当前昇腾服务器
帮我部署 vLLM 推理服务
我要在 910B 上跑 Llama3-8B
问题排查
运行报错了,帮我看看怎么解决
这个算子不支持怎么办
为什么推理速度这么慢
性能优化
优化推理延迟,目标 100ms 以内
帮我提升批处理吞吐量
对比一下优化前后的性能
六、最佳实践
推荐做法
- 硬件在环:直接在目标服务器上运行 Kerminal,确保适配结果可直接部署
- 提供上下文:将相关文档、代码规范放入工作目录,Kerminal 会自动参考
- 分阶段验证:先完成基础适配验证正确性,再进行性能优化
- 保存经验:适配完成后,经验会沉淀到平台,后续类似任务更快完成
避免做法
- 在模拟环境中适配后再迁移到真实硬件
- 一次性提出过于复杂的需求
- 跳过功能验证直接追求性能
七、预期效果
| 指标 | 传统方式 | Kerminal |
|---|---|---|
| 基础适配 | 2-3 天(资深)/ 1 周(普通) | 约 30 分钟 |
| 性能优化 | 数周 | 2-6 小时 |
| 人工投入 | 全程参与 | 仅需发起任务 |
| 技术门槛 | 需熟悉目标平台 | 自然语言交互 |
八、常见问题
Q: 适配过程中遇到问题怎么办?
Kerminal 会自动尝试解决。如果需要你的输入,会主动询问。你也可以随时用自然语言描述遇到的问题。
Q: 支持哪些芯片平台?
目前支持华为昇腾系列,其他平台持续扩展中。
Q: 适配后的代码可以直接用于生产吗?
是的。Kerminal 直接在目标硬件上验证,适配完成即可部署。
Q: 如何提升适配成功率?
确保基础软件(驱动、运行时、框架插件)已正确安装。提供清晰的任务描述。
