2026年3月13日
MIT6.5940 Lab-1 学习笔记
学习如何通过剪枝(Pruning)经典神经网络以减少model size和latency
阅读全文 →学习如何通过剪枝(Pruning)经典神经网络以减少model size和latency
阅读全文 →介绍AI编译器的设计与实现,包括AI编译器的基本原理、AI编译器的优化技术、AI编译器的应用场景等。
阅读全文 →深入 torch.compile 的编译链路:TorchDynamo → FX Graph → Inductor → Triton/PTX,以及为什么 FlashAttention 等手写优化能超越自动编译。
阅读全文 →CUDA 编程基础
阅读全文 →通过对比 Pointwise-heavy 与 Matmul-heavy 两种模型的 Benchmark,直观理解 torch.compile 的核心优化——算子融合(Operator Fusion)为何只在显存带宽瓶颈场景下才有明显效果。
阅读全文 →对比 PyTorch 中的 torch.where 与 torch.cond,了解它们的区别与相同点,以及在不同场景下的应用。
阅读全文 →快速了解常见大模型推理/服务框架的核心概念、适用场景和对比。
阅读全文 →