偏见与公平:AI 学到的不止是规则,还有人类的"暗面"
训练数据是人类社会的镜像——AI 学到的"模式"包含了所有偏见、刻板印象、不公平。这一篇直面这个问题。
L0-11 我们玩”king - man + woman = queen” 的词向量算术—— 但当时我们没问的问题:“programmer - man + woman = ?” 这种算术,模型会给什么?
历史答案是:“homemaker”(家庭主妇)。
这就是 AI 偏见——模型从人类社会的数据里,学到了所有偏见。
这一篇直面这个问题。
偏见从哪来
来源 1:训练数据反映人类社会
互联网文本 → 全人类的内容总和 →
- 历史上女性较少做工程师 → “programmer” 和 “man” 共现多
- 某些族群被描绘负面 → 模型学到这些联想
- 文化主导(英文为主)→ 其它文化代表性不足
模型不”想”歧视——它只是反映训练数据。 但用户感受到的,是真实的歧视效果。
来源 2:标注员的偏见
RLHF 让人类标注偏好—— 标注员有自己的文化、阶级、教育背景。
他们偏好的”好回答”——是他们群体认为的好。 不是全人类的好。
来源 3:开发者选择
什么数据进训练、什么训练目标、什么对齐宪法—— 都是人类决定。 开发者的世界观隐含在每个选择里。
来源 4:放大效应
ML 不只是反映偏见——它放大偏见。
- 训练数据里 70% 工程师是男性 → 模型可能输出 90% 男性工程师
- 训练数据里 80% 医生用”he” → 模型可能 95% 用”he”
统计趋势 → 强化刻板印象 → 更不平衡的输出。
偏见的具体形态
1. 性别偏见
"The doctor said he was tired." → 自动假设医生是男的
"The nurse said she was tired." → 自动假设护士是女的
机器翻译里特别明显——把英文 gender-neutral 的 “they” 译成中文时,模型经常默认性别。
2. 种族偏见
经典例子:早期 Google Photos 把黑人误标为 “gorillas”(2015)—— 训练数据里少数族裔代表性不足 + 标签偏见 = 灾难。
3. 文化偏见
LLM 普遍偏向西方价值观——因为训练数据 80% 是英文。 问”什么是成功”,模型可能默认”积累财富 + 个人成就”—— 忽略其它文化的成功定义(家庭和谐、集体贡献等)。
4. 经济/地理偏见
模型对发达国家、大城市、英文文化了解多—— 对发展中国家、小语种、本地文化了解少。
5. 历史偏见
模型学的是”过去到 X 年的数据”—— 它把过去的偏见编码进了未来。 即使社会变化了,模型仍可能停留在旧版本。
一个真实的例子:COMPAS
美国法院 2010s 用 ML 工具 COMPAS 预测罪犯再犯风险。
调查发现:
- 黑人被预测”高风险”的比例远高于实际再犯率
- 白人被预测”低风险”的比例远高于实际再犯率
- 偏差幅度:黑人误判率约2 倍于白人
这不是有人想搞歧视—— 是历史数据里黑人被警察盯得更紧、被捕率更高 → 模型学到”黑人 = 高风险”。
ML 完美地复制了系统性偏见—— 现在还在影响真人的判刑。
怎么测偏见
Bias Benchmarks
学术界开发了多个评测:
- BBQ(Bias Benchmark for QA)—— 各种 bias 问答
- WinoGender / WinoBias —— 性别代词测试
- BOLD —— 偏见的文本生成测试
- StereoSet —— 系统性偏见
例如 WinoBias 测试:
"The carpenter helped the homemaker because he was kind."
("he" 指 carpenter 还是 homemaker?)
模型若 80% 把”he”指代 carpenter(male-stereotype),就是有性别偏见。
行业实践
大公司发布 LLM 前必须做这些测试—— EU AI Act、Bias Auditing 等法规也强制要求。
怎么缓解(部分)
方法 1:数据层面
- 均衡数据:刻意补充少数代表性的数据
- 去重:减少”主流声音”的过度暴露
- 多元来源:纳入小语种、不同文化的文本
方法 2:训练层面
- Fair Data Sampling:训练时按比例采样
- Counterfactual Augmentation:人工生成”性别互换”样本
方法 3:模型层面
- Bias-aware loss:在损失函数里加偏见惩罚项
- 去偏 embedding:从词向量中”减去”偏见方向(早期 NLP 方法)
方法 4:后处理
- 输出过滤:检测明显有偏见的输出,重新生成
- 多样性约束:让”医生”既能是 he 也能是 she
方法 5:对齐
- RLHF 中标注偏见:让标注员对偏见敏感
- Constitutional AI:在宪法里写”不要强化刻板印象"
"对齐”和”准确”的权衡
这里有个核心 trade-off——
如果 60% 的医生确实是男性:
- 模型说”a doctor… he”60% 时间—— 准确反映现实
- 模型说”a doctor… she/they”—— 促进平等但偏离统计
哪个对?
没有简单答案。 这是社会选择,不是技术选择。
不同公司选择不同——
- OpenAI / Anthropic 倾向”促进平等”
- 一些研究模型保持”反映统计”
透明度很关键:模型应该告诉用户它的立场。
偏见检测工具
| 工具 | 用途 |
|---|---|
| AI Fairness 360(IBM 开源) | 检测和缓解偏见 |
| Fairlearn(微软) | Python 库,公平 ML |
| PerspectiveAPI(Google) | 检测有害文本 |
| HELM(Stanford) | 全面 LLM 评测含偏见 |
没有”魔法消除偏见”的工具——只能部分缓解 + 持续监测。
一个更深的问题
完全消除偏见可能不现实——也不一定 desirable:
因为:
- 没有”无偏见”的数据——所有数据都有视角
- 不同人对”公平”定义不同——程序员 vs 哲学家 vs 政策制定者
- 完全平等可能反而不准确——医生确实更多男性是事实
- “去偏”本身可能引入新偏见——比如过度纠正
目标不是”零偏见 AI”—— 是”对偏见透明、可审计、能被纠正” 的 AI。
法律和监管
各国都在规范 AI 偏见:
- EU AI Act:高风险系统必须做偏见审计
- NYC Local Law 144:招聘 AI 必须做偏见测试
- Colorado SB 21-169:保险 AI 不能基于种族 + 其它敏感特征
- 中国《互联网信息服务算法推荐管理规定》:算法推荐需公开机制
法律比技术先行——很多公司 AI 团队还没准备好合规。
一个 PM 视角
如果你做 AI 产品——
不该做的
- “我们的 AI 没偏见”(绝对错)
- 不做任何偏见测试就上线
- 把偏见问题完全归咎于”数据”
该做的
- 内部 bias audit 流程
- 多元化标注团队
- 透明 disclosure
- 用户反馈渠道
- 持续监测 + 修复
一些有意思的观察
1. 模型越大,“明显偏见”反而减少
GPT-4 比 GPT-2 更”政治正确”—— RLHF 训练让大模型学会”避免有问题的回答”。
但隐含偏见仍然在——
- 选词倾向、举例选择、推理路径——都带偏见
- 更难检测
2. 多语言模型的”文化偏见”
GPT-4 用中文回答”什么是孝”和”什么是 success”,给的答案风格上仍然偏西方—— 因为模型的”思维”主要在英文构建,再翻译。
这是深层文化偏见——比表面词汇偏见难解决得多。
3. RLHF 标注员的影响巨大
OpenAI 的标注员主要是肯尼亚、菲律宾的低薪工人—— 他们的判断”什么是好回答”塑造了今天 ChatGPT 的”价值观”。
你今天用 ChatGPT 的体验——部分来自肯尼亚标注员的偏好。 这是技术圈很少讨论的事实。
2024 年 Sleeper Agents 论文显示: 模型可能**“隐藏”自己的偏见**—— 表面对齐了,深层结构里偏见还在。 对齐研究还有很长的路要走。
一个建议
如果你被 AI 偏见问题困扰——
Don’t despair, but stay vigilant:
- 知道偏见存在——这本身就是大步
- 用 AI 时保留判断力
- 看到明显偏见的输出,反馈给厂商
- 支持透明、负责任的 AI 公司
完美 AI 不可能。但更好的 AI 是可能的—— 需要技术、政策、公民共同努力。
下一篇推荐:L6-06 AI 政策与监管 或 L6-07 AI 安全研究入门。
读到这里说明你认真在学 🎯
订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。