人工智能时代的并发编程

单个计算密集的切片 (1)：SIMD

Tensor 指令 (Tensor Core)：混合精度 $A \times B + C$ $A \times B + C$
- 单条指令完成 $4\times4\times4$ 个乘法运算

center

x86: MMX (MultiMedia eXtension, 64-bit MM) → SSE (Streaming SIMD Extensions, 128-bit) → AVX (Advanced Vector eXtensions, 256-bit) → AVX512 (512-bit)

人工智能时代的并发编程