2026年3月13日
MIT6.5940 Lab-1 学习笔记
学习如何通过剪枝(Pruning)经典神经网络以减少model size和latency
阅读更多 →热爱编程, 探索技术. 这是我的个人博客, 分享关于开发、设计和生活的思考.
学习如何通过剪枝(Pruning)经典神经网络以减少model size和latency
阅读更多 →介绍AI编译器的设计与实现,包括AI编译器的基本原理、AI编译器的优化技术、AI编译器的应用场景等。
阅读更多 →深入 torch.compile 的编译链路:TorchDynamo → FX Graph → Inductor → Triton/PTX,以及为什么 FlashAttention 等手写优化能超越自动编译。
阅读更多 →CUDA 编程基础
阅读更多 →通过对比 Pointwise-heavy 与 Matmul-heavy 两种模型的 Benchmark,直观理解 torch.compile 的核心优化——算子融合(Operator Fusion)为何只在显存带宽瓶颈场景下才有明显效果。
阅读更多 →对比 PyTorch 中的 torch.where 与 torch.cond,了解它们的区别与相同点,以及在不同场景下的应用。
阅读更多 →快速了解常见大模型推理/服务框架的核心概念、适用场景和对比。
阅读更多 →