文档/操作指南/相关实践/计算加速速通指南
计算加速速通指南
快速掌握计算加速技巧
Kerminal 能协助您做哪些工作?
| 任务类型 | 案例 |
|---|---|
| 各模型算子跨生态跨硬件迁移和性能优化 | 请将 Deepseek OCR 2 迁移到我当前的环境上,并且尝试优化 |
| 基于论文的算法公式进行从零开始的算子实现 | 基于论文,仅 10 分钟用 AscendC 跑通 mHC-post,45 分钟迭代至多精度与性能优化。 |
| 基于多元算子编程范式做硬件亲和的迁移优化 | 支持 Torch / Triton / PyPTO / CATLASS / Ascend C / 类 PTX 层等各类编程范式,做算子迁移、开发和优化 |
| 赋能框架层开发(调参、算法、算子) | 优化 vLLM SGlang 等框架,并基于 vLLM 等部署方案做进一步优化性能 |
| 强大的通用编程能力,善于处理各种复杂长程任务。 | 全栈工程师,善于处理复杂长程任务 |
首次尝试?试试看这样对话
如果您是刚接触 AI 编程类工具,可先尝试以下破冰任务:
- 对话破冰:请帮我分析 ××模型在昇腾环境上部署的难点,分层梳理给我
- 简单部署任务:在我当前环境上部署 yolo 模型,请推荐方案。
有经验?这些沟通方式更快速
基础对话技巧
指定明确的任务目标:将任务相关的论文编号、网址、代码仓、参考实现等直接给到 Kerminal。
如果您已有模型迁移部署或算子开发的经验,想直接尝试计算加速任务,可参考以下案例:
模型迁移:
1.DeepSeek-OCR-2:将DeepSeek OCR 2 迁移到我的环境,先跑通后尝试优化,模型链接:
https://www.modelscope.cn/models/deepseek-ai/DeepSeek-OCR-2
2.GLM-OCR:请你查看https://modelscope.cn/models/ZhipuAI/GLM-OCR或者
https://huggingface.co/zai-org/GLM-OCR(哪个能下载用哪个),把相关模型迁移至当前的昇腾NPU环境上运
行,使用独立的conda环境
中长尾模型迁移—AI for Science案例:帮我在此环境迁移一下bioemu这个模型,github仓库
https://github.com/microsoft/bioemu,先制定迁移规划,然后先写测试后实现
跨生态算子迁移:请将Native-Sparse-Attention迁移至我当前环境。
基于论文,从零开始算子实现:使用Ascendc,基于25年12月31日deepseek发布的论文(mHC: Manifold-
Constrained Hyper-Connections),实现其中的mhc_post操作,如果不清楚算子定义,搜索论文
(https://arxiv.org/pdf/2512.24880)和相关代码,先写测试后写实现。
昇腾社区开发任务Tile算子:这是一个昇腾NPU上的ascendc算子开发任务,请你仔细阅读当前文件夹的任务文档(此
处需要提供社区任务文档给到kerminal),先跑通TBE实现(这是官方已经实现的,性能对比的基础),然后先按照任
务要求和算子定义,规划功能与性能测试方案,先写测试后写实现,先跑通后优化。
基础算子开发:帮我实现一个ascendc版本的 softmax 算子,在最后一个维度上做 softmax,输入是 fp16,
shape 主要是 [1,128]、[4,2048]、[32,4096]等,要求精度对齐 torch.softmax,性能目标是持平或者超越
torch_npu
通过CATLASS模版库实现昇腾算子开发:实现https://arxiv.org/pdf/2601.16536论文中描述的jw4a16 splitK
算法,以catlass为参考,CATLASS仓库链接:https://gitcode.com/cann/catlass
高效跑通与优化技巧
| 阶段 | 技巧 |
|---|---|
| 计划阶段 | 先做 Plan,与 Kerminal 协作规划任务方案,可以考虑将计划先写成文档,然后边做任务边更新该文档 |
| 开始执行 | 可要求"先写测试后实现",做 TDD,可有效收敛探索区间 |
| 运行中 | 遇到困境时,提醒 Kerminal 先跳出当前思维模式,回归第一性思考,重新解析问题和尝试。 看到 Kerminal 思路有偏差时,可以按 Esc 键打断 Kerminal,人工干预给出正确纠偏思路,提升效率 |
| 测试跑通 | 可将明确的测试要求、baseline 等给到 Kerminal |
| 优化阶段 | 可使用循环迭代指令,给出各维度性能指标要求,要求 Kerminal 持续优化直至满足指标 |
| Skills 总结 | 在完成一轮迭代后,可让 Kerminal 自行总结 skills,持续强化任务表现 |
