所有文章

2026年3月13日

MIT6.5940 Lab-1 学习笔记

学习如何通过剪枝（Pruning）经典神经网络以减少model size和latency

2026年3月11日

介绍AI编译器的设计与实现，包括AI编译器的基本原理、AI编译器的优化技术、AI编译器的应用场景等。

2026年2月17日

深入 torch.compile 的编译链路：TorchDynamo → FX Graph → Inductor → Triton/PTX，以及为什么 FlashAttention 等手写优化能超越自动编译。

2026年2月16日

CUDA 编程基础

2026年2月16日

通过对比 Pointwise-heavy 与 Matmul-heavy 两种模型的 Benchmark，直观理解 torch.compile 的核心优化——算子融合（Operator Fusion）为何只在显存带宽瓶颈场景下才有明显效果。

2026年2月16日

对比 PyTorch 中的 torch.where 与 torch.cond，了解它们的区别与相同点，以及在不同场景下的应用。

2026年2月14日

快速了解常见大模型推理/服务框架的核心概念、适用场景和对比。