数据中心里的并发编程

Google 的数据中心

数据中心程序：特点

“A network of computing and storage resources that enable the delivery of shared applications and data.” (CISCO)

以数据 (存储) 为中心

如何实现高可靠、低延迟的多副本分布式存储和计算系统？

在服务海量地理分布请求的前提下，三者不可兼得：
- 数据要保持一致 (Consistency)
- 服务时刻保持可用 (Availability)
- 容忍机器离线 (Partition tolerance)

事件驱动 + 高并发：系统调用密集且延迟不确定

假设有数千/数万个请求同时到达服务器……

和线程概念相同 (独立堆栈、共享内存)

// 只可能是 1122 或 2211
void T1() { send("1"); send("1"); yield(); }
void T2() { send("2"); send("2"); yield(); }

Go: 小孩子才做选择，多处理器并行和轻量级并发我全都要！

Goroutine: 概念上是线程，实际是线程和协程的混合体

每个 CPU 上有一个 Go Worker，自由调度 goroutines
执行到 blocking API 时 (例如 sleep, read)
- Go Worker 偷偷改成 non-blocking 的版本
  - 成功 → 立即继续执行
  - 失败 → 立即 yield 到另一个需要 CPU 的 goroutine
    - 太巧妙了！CPU 和操作系统全部用到 100%

例子

Do not communicate by sharing memory; instead, share memory by communicating. ——Effective Go

共享内存 = 万恶之源

但 UNIX 时代就有一个实现并行的机制了

cat *.txt | wc -l
- 管道是一个天然的生产者/消费者！
- 为什么不用 “管道” 实现协程/线程间的同步 + 通信呢？
  - Channels in Go