计算加速速通指南 - Kerminal 文档

计算加速速通指南

快速掌握计算加速技巧

Kerminal 能协助您做哪些工作？

任务类型	案例
各模型算子跨生态跨硬件迁移和性能优化	请将 Deepseek OCR 2 迁移到我当前的环境上，并且尝试优化
基于论文的算法公式进行从零开始的算子实现	基于论文，仅 10 分钟用 AscendC 跑通 mHC-post，45 分钟迭代至多精度与性能优化。
基于多元算子编程范式做硬件亲和的迁移优化	支持 Torch / Triton / PyPTO / CATLASS / Ascend C / 类 PTX 层等各类编程范式，做算子迁移、开发和优化
赋能框架层开发（调参、算法、算子）	优化 vLLM SGlang 等框架，并基于 vLLM 等部署方案做进一步优化性能
强大的通用编程能力，善于处理各种复杂长程任务。	全栈工程师，善于处理复杂长程任务

首次尝试？试试看这样对话

如果您是刚接触 AI 编程类工具，可先尝试以下破冰任务：

对话破冰：请帮我分析 ××模型在昇腾环境上部署的难点，分层梳理给我
简单部署任务：在我当前环境上部署 yolo 模型，请推荐方案。

有经验？这些沟通方式更快速

基础对话技巧

指定明确的任务目标：将任务相关的论文编号、网址、代码仓、参考实现等直接给到 Kerminal。

如果您已有模型迁移部署或算子开发的经验，想直接尝试计算加速任务，可参考以下案例：

模型迁移：
1.DeepSeek-OCR-2：将DeepSeek OCR 2 迁移到我的环境，先跑通后尝试优化，模型链接：
  https://www.modelscope.cn/models/deepseek-ai/DeepSeek-OCR-2
2.GLM-OCR：请你查看https://modelscope.cn/models/ZhipuAI/GLM-OCR或者
  https://huggingface.co/zai-org/GLM-OCR（哪个能下载用哪个），把相关模型迁移至当前的昇腾NPU环境上运
  行，使用独立的conda环境

中长尾模型迁移—AI for Science案例：帮我在此环境迁移一下bioemu这个模型，github仓库
  https://github.com/microsoft/bioemu，先制定迁移规划，然后先写测试后实现

跨生态算子迁移：请将Native-Sparse-Attention迁移至我当前环境。

基于论文，从零开始算子实现：使用Ascendc，基于25年12月31日deepseek发布的论文（mHC: Manifold-
  Constrained Hyper-Connections），实现其中的mhc_post操作，如果不清楚算子定义，搜索论文
  (https://arxiv.org/pdf/2512.24880)和相关代码，先写测试后写实现。

昇腾社区开发任务Tile算子：这是一个昇腾NPU上的ascendc算子开发任务，请你仔细阅读当前文件夹的任务文档（此
  处需要提供社区任务文档给到kerminal），先跑通TBE实现（这是官方已经实现的，性能对比的基础），然后先按照任
  务要求和算子定义，规划功能与性能测试方案，先写测试后写实现，先跑通后优化。

基础算子开发：帮我实现一个ascendc版本的 softmax 算子，在最后一个维度上做 softmax，输入是 fp16，
  shape 主要是 [1,128]、[4,2048]、[32,4096]等，要求精度对齐 torch.softmax，性能目标是持平或者超越
  torch_npu

通过CATLASS模版库实现昇腾算子开发：实现https://arxiv.org/pdf/2601.16536论文中描述的jw4a16 splitK
  算法，以catlass为参考，CATLASS仓库链接：https://gitcode.com/cann/catlass

高效跑通与优化技巧

阶段	技巧
计划阶段	先做 Plan，与 Kerminal 协作规划任务方案，可以考虑将计划先写成文档，然后边做任务边更新该文档
开始执行	可要求"先写测试后实现"，做 TDD，可有效收敛探索区间
运行中	遇到困境时，提醒 Kerminal 先跳出当前思维模式，回归第一性思考，重新解析问题和尝试。看到 Kerminal 思路有偏差时，可以按 `Esc` 键打断 Kerminal，人工干预给出正确纠偏思路，提升效率
测试跑通	可将明确的测试要求、baseline 等给到 Kerminal
优化阶段	可使用循环迭代指令，给出各维度性能指标要求，要求 Kerminal 持续优化直至满足指标
Skills 总结	在完成一轮迭代后，可让 Kerminal 自行总结 Skills，持续强化任务表现

计算加速速通指南

快速掌握计算加速技巧

Kerminal 能协助您做哪些工作？

任务类型	案例
各模型算子跨生态跨硬件迁移和性能优化	请将 Deepseek OCR 2 迁移到我当前的环境上，并且尝试优化
基于论文的算法公式进行从零开始的算子实现	基于论文，仅 10 分钟用 AscendC 跑通 mHC-post，45 分钟迭代至多精度与性能优化。
基于多元算子编程范式做硬件亲和的迁移优化	支持 Torch / Triton / PyPTO / CATLASS / Ascend C / 类 PTX 层等各类编程范式，做算子迁移、开发和优化
赋能框架层开发（调参、算法、算子）	优化 vLLM SGlang 等框架，并基于 vLLM 等部署方案做进一步优化性能
强大的通用编程能力，善于处理各种复杂长程任务。	全栈工程师，善于处理复杂长程任务

首次尝试？试试看这样对话

如果您是刚接触 AI 编程类工具，可先尝试以下破冰任务：

对话破冰：请帮我分析 ××模型在昇腾环境上部署的难点，分层梳理给我
简单部署任务：在我当前环境上部署 yolo 模型，请推荐方案。

有经验？这些沟通方式更快速

基础对话技巧

指定明确的任务目标：将任务相关的论文编号、网址、代码仓、参考实现等直接给到 Kerminal。

如果您已有模型迁移部署或算子开发的经验，想直接尝试计算加速任务，可参考以下案例：

模型迁移：
1.DeepSeek-OCR-2：将DeepSeek OCR 2 迁移到我的环境，先跑通后尝试优化，模型链接：
  https://www.modelscope.cn/models/deepseek-ai/DeepSeek-OCR-2
2.GLM-OCR：请你查看https://modelscope.cn/models/ZhipuAI/GLM-OCR或者
  https://huggingface.co/zai-org/GLM-OCR（哪个能下载用哪个），把相关模型迁移至当前的昇腾NPU环境上运
  行，使用独立的conda环境

中长尾模型迁移—AI for Science案例：帮我在此环境迁移一下bioemu这个模型，github仓库
  https://github.com/microsoft/bioemu，先制定迁移规划，然后先写测试后实现

跨生态算子迁移：请将Native-Sparse-Attention迁移至我当前环境。

基于论文，从零开始算子实现：使用Ascendc，基于25年12月31日deepseek发布的论文（mHC: Manifold-
  Constrained Hyper-Connections），实现其中的mhc_post操作，如果不清楚算子定义，搜索论文
  (https://arxiv.org/pdf/2512.24880)和相关代码，先写测试后写实现。

昇腾社区开发任务Tile算子：这是一个昇腾NPU上的ascendc算子开发任务，请你仔细阅读当前文件夹的任务文档（此
  处需要提供社区任务文档给到kerminal），先跑通TBE实现（这是官方已经实现的，性能对比的基础），然后先按照任
  务要求和算子定义，规划功能与性能测试方案，先写测试后写实现，先跑通后优化。

基础算子开发：帮我实现一个ascendc版本的 softmax 算子，在最后一个维度上做 softmax，输入是 fp16，
  shape 主要是 [1,128]、[4,2048]、[32,4096]等，要求精度对齐 torch.softmax，性能目标是持平或者超越
  torch_npu

通过CATLASS模版库实现昇腾算子开发：实现https://arxiv.org/pdf/2601.16536论文中描述的jw4a16 splitK
  算法，以catlass为参考，CATLASS仓库链接：https://gitcode.com/cann/catlass

高效跑通与优化技巧

阶段	技巧
计划阶段	先做 Plan，与 Kerminal 协作规划任务方案，可以考虑将计划先写成文档，然后边做任务边更新该文档
开始执行	可要求"先写测试后实现"，做 TDD，可有效收敛探索区间
运行中	遇到困境时，提醒 Kerminal 先跳出当前思维模式，回归第一性思考，重新解析问题和尝试。看到 Kerminal 思路有偏差时，可以按 `Esc` 键打断 Kerminal，人工干预给出正确纠偏思路，提升效率
测试跑通	可将明确的测试要求、baseline 等给到 Kerminal
优化阶段	可使用循环迭代指令，给出各维度性能指标要求，要求 Kerminal 持续优化直至满足指标
Skills 总结	在完成一轮迭代后，可让 Kerminal 自行总结 Skills，持续强化任务表现