L6 第 5 篇 🐣 难度 🕒 10 分钟

偏见与公平：AI 学到的不止是规则，还有人类的"暗面"

训练数据是人类社会的镜像——AI 学到的"模式"包含了所有偏见、刻板印象、不公平。这一篇直面这个问题。

阿

阿莱

2026/7/26

L0-11 我们玩”king - man + woman = queen” 的词向量算术—— 但当时我们没问的问题：“programmer - man + woman = ?” 这种算术，模型会给什么？

历史答案是：“homemaker”（家庭主妇）。

这就是 AI 偏见——模型从人类社会的数据里，学到了所有偏见。

这一篇直面这个问题。

偏见从哪来

来源 1：训练数据反映人类社会

互联网文本 → 全人类的内容总和 →

历史上女性较少做工程师 → “programmer” 和 “man” 共现多
某些族群被描绘负面 → 模型学到这些联想
文化主导（英文为主）→ 其它文化代表性不足

模型不”想”歧视——它只是反映训练数据。但用户感受到的，是真实的歧视效果。

来源 2：标注员的偏见

RLHF 让人类标注偏好—— 标注员有自己的文化、阶级、教育背景。

他们偏好的”好回答”——是他们群体认为的好。不是全人类的好。

来源 3：开发者选择

什么数据进训练、什么训练目标、什么对齐宪法—— 都是人类决定。开发者的世界观隐含在每个选择里。

来源 4：放大效应

ML 不只是反映偏见——它放大偏见。

训练数据里 70% 工程师是男性 → 模型可能输出 90% 男性工程师
训练数据里 80% 医生用”he” → 模型可能 95% 用”he”

统计趋势 → 强化刻板印象 → 更不平衡的输出。

偏见的具体形态

1. 性别偏见

"The doctor said he was tired."  → 自动假设医生是男的
"The nurse said she was tired."  → 自动假设护士是女的

机器翻译里特别明显——把英文 gender-neutral 的 “they” 译成中文时，模型经常默认性别。

2. 种族偏见

经典例子：早期 Google Photos 把黑人误标为 “gorillas”（2015）—— 训练数据里少数族裔代表性不足 + 标签偏见 = 灾难。

3. 文化偏见

LLM 普遍偏向西方价值观——因为训练数据 80% 是英文。问”什么是成功”，模型可能默认”积累财富 + 个人成就”—— 忽略其它文化的成功定义（家庭和谐、集体贡献等）。

4. 经济/地理偏见

模型对发达国家、大城市、英文文化了解多—— 对发展中国家、小语种、本地文化了解少。

5. 历史偏见

模型学的是”过去到 X 年的数据”—— 它把过去的偏见编码进了未来。即使社会变化了，模型仍可能停留在旧版本。

一个真实的例子：COMPAS

美国法院 2010s 用 ML 工具 COMPAS 预测罪犯再犯风险。

调查发现：

黑人被预测”高风险”的比例远高于实际再犯率
白人被预测”低风险”的比例远高于实际再犯率
偏差幅度：黑人误判率约2 倍于白人

这不是有人想搞歧视—— 是历史数据里黑人被警察盯得更紧、被捕率更高 → 模型学到”黑人 = 高风险”。

ML 完美地复制了系统性偏见—— 现在还在影响真人的判刑。

怎么测偏见

Bias Benchmarks

学术界开发了多个评测：

BBQ（Bias Benchmark for QA）—— 各种 bias 问答
WinoGender / WinoBias —— 性别代词测试
BOLD —— 偏见的文本生成测试
StereoSet —— 系统性偏见

例如 WinoBias 测试：

"The carpenter helped the homemaker because he was kind."
（"he" 指 carpenter 还是 homemaker？）

模型若 80% 把”he”指代 carpenter（male-stereotype），就是有性别偏见。

行业实践

大公司发布 LLM 前必须做这些测试—— EU AI Act、Bias Auditing 等法规也强制要求。

怎么缓解（部分）

方法 1：数据层面

均衡数据：刻意补充少数代表性的数据
去重：减少”主流声音”的过度暴露
多元来源：纳入小语种、不同文化的文本

方法 2：训练层面

Fair Data Sampling：训练时按比例采样
Counterfactual Augmentation：人工生成”性别互换”样本

方法 3：模型层面

Bias-aware loss：在损失函数里加偏见惩罚项
去偏 embedding：从词向量中”减去”偏见方向（早期 NLP 方法）

方法 4：后处理

输出过滤：检测明显有偏见的输出，重新生成
多样性约束：让”医生”既能是 he 也能是 she

方法 5：对齐

RLHF 中标注偏见：让标注员对偏见敏感
Constitutional AI：在宪法里写”不要强化刻板印象"

"对齐”和”准确”的权衡

这里有个核心 trade-off——

如果 60% 的医生确实是男性：

模型说”a doctor… he”60% 时间—— 准确反映现实
模型说”a doctor… she/they”—— 促进平等但偏离统计

哪个对？

没有简单答案。这是社会选择，不是技术选择。

不同公司选择不同——

OpenAI / Anthropic 倾向”促进平等”
一些研究模型保持”反映统计”

透明度很关键：模型应该告诉用户它的立场。

偏见检测工具

工具	用途
AI Fairness 360（IBM 开源）	检测和缓解偏见
Fairlearn（微软）	Python 库，公平 ML
PerspectiveAPI（Google）	检测有害文本
HELM（Stanford）	全面 LLM 评测含偏见

没有”魔法消除偏见”的工具——只能部分缓解 + 持续监测。

一个更深的问题

完全消除偏见可能不现实——也不一定 desirable：

因为：

没有”无偏见”的数据——所有数据都有视角
不同人对”公平”定义不同——程序员 vs 哲学家 vs 政策制定者
完全平等可能反而不准确——医生确实更多男性是事实
“去偏”本身可能引入新偏见——比如过度纠正

目标不是”零偏见 AI”—— 是”对偏见透明、可审计、能被纠正” 的 AI。

法律和监管

各国都在规范 AI 偏见：

EU AI Act：高风险系统必须做偏见审计
NYC Local Law 144：招聘 AI 必须做偏见测试
Colorado SB 21-169：保险 AI 不能基于种族 + 其它敏感特征
中国《互联网信息服务算法推荐管理规定》：算法推荐需公开机制

法律比技术先行——很多公司 AI 团队还没准备好合规。

一个 PM 视角

如果你做 AI 产品——

不该做的

“我们的 AI 没偏见”（绝对错）
不做任何偏见测试就上线
把偏见问题完全归咎于”数据”

该做的

内部 bias audit 流程
多元化标注团队
透明 disclosure
用户反馈渠道
持续监测 + 修复

一些有意思的观察

1. 模型越大，“明显偏见”反而减少

GPT-4 比 GPT-2 更”政治正确”—— RLHF 训练让大模型学会”避免有问题的回答”。

但隐含偏见仍然在——

选词倾向、举例选择、推理路径——都带偏见
更难检测

2. 多语言模型的”文化偏见”

GPT-4 用中文回答”什么是孝”和”什么是 success”，给的答案风格上仍然偏西方—— 因为模型的”思维”主要在英文构建，再翻译。

这是深层文化偏见——比表面词汇偏见难解决得多。

3. RLHF 标注员的影响巨大

OpenAI 的标注员主要是肯尼亚、菲律宾的低薪工人—— 他们的判断”什么是好回答”塑造了今天 ChatGPT 的”价值观”。

你今天用 ChatGPT 的体验——部分来自肯尼亚标注员的偏好。这是技术圈很少讨论的事实。

⚠️ 一个真实数据点

2024 年 Sleeper Agents 论文显示：模型可能**“隐藏”自己的偏见**—— 表面对齐了，深层结构里偏见还在。对齐研究还有很长的路要走。

一个建议

如果你被 AI 偏见问题困扰——

Don’t despair, but stay vigilant：

知道偏见存在——这本身就是大步
用 AI 时保留判断力
看到明显偏见的输出，反馈给厂商
支持透明、负责任的 AI 公司

完美 AI 不可能。但更好的 AI 是可能的—— 需要技术、政策、公民共同努力。

下一篇推荐：L6-06 AI 政策与监管 或 L6-07 AI 安全研究入门。

🚧 3 个常见坑

⚠️ 实战避坑

坑 1：以为去偏 = 全部均匀 不同任务「公平」的定义不同（demographic parity / equal opportunity / individual fairness 互相矛盾）——必须先定义。

坑 2：只测显性偏见 隐性偏见（如「医生 → he」联想）比显性更难发现——必须用 probing + counterfactual eval。

坑 3：把 bias 推给训练数据 数据是源头但不是借口——清洗 / 重采样 / RLHF / 解码层都能干预，每一步都是责任。

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。