Kerminal
免费体验
本篇目录
Kerminal 能协助您做哪些工作?首次尝试?试试看这样对话有经验?这些沟通方式更快速高效跑通与优化技巧
Kerminal QR Code扫码添加官方社群
文档/操作指南/相关实践/计算加速速通指南

计算加速速通指南

快速掌握计算加速技巧

Kerminal 能协助您做哪些工作?


任务类型 案例
各模型算子跨生态跨硬件迁移和性能优化 请将 Deepseek OCR 2 迁移到我当前的环境上,并且尝试优化
基于论文的算法公式进行从零开始的算子实现 基于论文,仅 10 分钟用 AscendC 跑通 mHC-post,45 分钟迭代至多精度与性能优化。
基于多元算子编程范式做硬件亲和的迁移优化 支持 Torch / Triton / PyPTO / CATLASS / Ascend C / 类 PTX 层等各类编程范式,做算子迁移、开发和优化
赋能框架层开发(调参、算法、算子) 优化 vLLM SGlang 等框架,并基于 vLLM 等部署方案做进一步优化性能
强大的通用编程能力,善于处理各种复杂长程任务。 全栈工程师,善于处理复杂长程任务

首次尝试?试试看这样对话


如果您是刚接触 AI 编程类工具,可先尝试以下破冰任务:

  • 对话破冰:请帮我分析 ××模型在昇腾环境上部署的难点,分层梳理给我
  • 简单部署任务:在我当前环境上部署 yolo 模型,请推荐方案。

有经验?这些沟通方式更快速


基础对话技巧

指定明确的任务目标:将任务相关的论文编号、网址、代码仓、参考实现等直接给到 Kerminal。

如果您已有模型迁移部署或算子开发的经验,想直接尝试计算加速任务,可参考以下案例:

模型迁移:
1.DeepSeek-OCR-2:将DeepSeek OCR 2 迁移到我的环境,先跑通后尝试优化,模型链接:
  https://www.modelscope.cn/models/deepseek-ai/DeepSeek-OCR-2
2.GLM-OCR:请你查看https://modelscope.cn/models/ZhipuAI/GLM-OCR或者
  https://huggingface.co/zai-org/GLM-OCR(哪个能下载用哪个),把相关模型迁移至当前的昇腾NPU环境上运
  行,使用独立的conda环境

中长尾模型迁移—AI for Science案例:帮我在此环境迁移一下bioemu这个模型,github仓库
  https://github.com/microsoft/bioemu,先制定迁移规划,然后先写测试后实现

跨生态算子迁移:请将Native-Sparse-Attention迁移至我当前环境。

基于论文,从零开始算子实现:使用Ascendc,基于25年12月31日deepseek发布的论文(mHC: Manifold-
  Constrained Hyper-Connections),实现其中的mhc_post操作,如果不清楚算子定义,搜索论文
  (https://arxiv.org/pdf/2512.24880)和相关代码,先写测试后写实现。

昇腾社区开发任务Tile算子:这是一个昇腾NPU上的ascendc算子开发任务,请你仔细阅读当前文件夹的任务文档(此
  处需要提供社区任务文档给到kerminal),先跑通TBE实现(这是官方已经实现的,性能对比的基础),然后先按照任
  务要求和算子定义,规划功能与性能测试方案,先写测试后写实现,先跑通后优化。

基础算子开发:帮我实现一个ascendc版本的 softmax 算子,在最后一个维度上做 softmax,输入是 fp16,
  shape 主要是 [1,128]、[4,2048]、[32,4096]等,要求精度对齐 torch.softmax,性能目标是持平或者超越
  torch_npu

通过CATLASS模版库实现昇腾算子开发:实现https://arxiv.org/pdf/2601.16536论文中描述的jw4a16 splitK
  算法,以catlass为参考,CATLASS仓库链接:https://gitcode.com/cann/catlass

高效跑通与优化技巧


阶段 技巧
计划阶段 先做 Plan,与 Kerminal 协作规划任务方案,可以考虑将计划先写成文档,然后边做任务边更新该文档
开始执行 可要求"先写测试后实现",做 TDD,可有效收敛探索区间
运行中 遇到困境时,提醒 Kerminal 先跳出当前思维模式,回归第一性思考,重新解析问题和尝试。 看到 Kerminal 思路有偏差时,可以按 Esc 键打断 Kerminal,人工干预给出正确纠偏思路,提升效率
测试跑通 可将明确的测试要求、baseline 等给到 Kerminal
优化阶段 可使用循环迭代指令,给出各维度性能指标要求,要求 Kerminal 持续优化直至满足指标
Skills 总结 在完成一轮迭代后,可让 Kerminal 自行总结 skills,持续强化任务表现