CPU 内的并行编程

什么是 CPU？

概念：无情的执行指令的机器

mini-rv32ima 中的 MiniRV32IMAStep()

实际的 CPU (Instruction-level Parallelism)

多个核心，共享内存 (relaxed memory model)
- 一些指令 (fence, atomic, ...) 实现内存一致性控制
没有想到的是：你一直都在 (自动) 并行编程
- 每个 CPU 核心都是一个编译器
  - 动态 (运行时) 数据流分析和指令调度
  - 服务器 CPU 上可能同时有上千条指令在执行
- 可以看看平时用的程序的 IPC 是多少？

CPU 内的并行编程

什么是 CPU？

概念：无情的执行指令的机器

实际的 CPU (Instruction-level Parallelism)

这意味着什么？

在能效和性能之间，CPU 选择了后者

Dark Silicon “暗硅时代”

面对功耗墙

$P = C \cdot V^2 \cdot f$

1. 让一条指令能处理更多的数据

2. 用更多更简单的处理器

1. 让一条指令能处理更多的数据

Single Instruction, Multiple Data (SIMD)

Single Instruction, Multiple Data (SIMD)

增加一些 “超大” 的寄存器

MMX $\to$ SSE $\to$ AVX $\to$ AVX-512

寄存器宽度

数据类型

更多运算 (三操作数模式)

SIMD: 没能完全解决问题

SIMD 指令依然是在 CPU 里调度的

我们实在是太想要性能了

2. 同等面积可以放置更多 “高能效” 计算单元

CPU 内的并行编程

什么是 CPU？

概念：无情的执行指令的机器

实际的 CPU (Instruction-level Parallelism)

这意味着什么？

在能效和性能之间，CPU 选择了后者

Dark Silicon “暗硅时代”

面对功耗墙

P=C⋅V2⋅fP = C \cdot V^2 \cdot fP=C⋅V2⋅f

1. 让一条指令能处理更多的数据

2. 用更多更简单的处理器

1. 让一条指令能处理更多的数据

Single Instruction, Multiple Data (SIMD)

Single Instruction, Multiple Data (SIMD)

增加一些 “超大” 的寄存器

MMX →\to→ SSE →\to→ AVX →\to→ AVX-512

寄存器宽度

数据类型

更多运算 (三操作数模式)

SIMD: 没能完全解决问题

SIMD 指令依然是在 CPU 里调度的

我们实在是太想要性能了

2. 同等面积可以放置更多 “高能效” 计算单元

$P = C \cdot V^2 \cdot f$

MMX $\to$ SSE $\to$ AVX $\to$ AVX-512