GPU Kernel Optimization

Kernel fusion: 把多个操作合并到单个 kernel 以减少 HBM 读写
Triton 编译器: 用类 Python 语法写融合 kernel,编译成优化的 CUDA
FlashAttention: IO 感知的 attention,把 HBM 流量减少约 10x

父级: ai-inference-engines
相关: inferact、radixark

概览

GPU 内核优化是在模型推理期间改进 GPU 硬件上运行的低层计算 kernel 效率的学问。它是 vLLM 和 SGLang 等推理引擎之下的基础层。

当调用 model.generate() 时,GPU 执行数百到数千个 kernel —— 小型并行函数,例如:

瓶颈洞察: GPU 很少受计算约束 —— 它们通常受 内存带宽约束。核心优化挑战是最小化 HBM(High Bandwidth Memory)与计算单元之间的数据移动。

格式	精度	相对 FP16 加速	质量影响
INT8	8 位	~2x	极小
INT4	4 位	~4x	中等
FP8(Hopper)	8 位浮点	~2-3x	非常低

针对 decode 阶段的新颖 kernel 级优化:

引擎	量化	Fusion	多 GPU	自定义 Kernel
vLLM	AWQ、GPTQ、GGML	是	TP、PP	PagedAttention
SGLang	AWQ、GPTQ	是	TP、PP、EP	RadixAttention
LMDeploy	INT4、INT8(TurboMind)	是(C++)	TP	TurboMind 引擎
TensorRT-LLM	FP8、INT8	是	TP、PP	高度优化
Inferact	(使用 vLLM)	是	是	vLLM kernel 栈
RadixArk	(使用 SGLang)	是	是	SGLang kernel 栈