HelloAI
L6 第 5 篇 🐣 难度 🕒 12 分钟

偏见与公平:AI 学到的不止是规则,还有人类的"暗面"

训练数据是人类社会的镜像——AI 学到的"模式"包含了所有偏见、刻板印象、不公平。这一篇直面这个问题。

阿莱
2026/7/26

L0-11 我们玩”king - man + woman = queen” 的词向量算术—— 但当时我们没问的问题:“programmer - man + woman = ?” 这种算术,模型会给什么?

历史答案是:“homemaker”(家庭主妇)

这就是 AI 偏见——模型从人类社会的数据里,学到了所有偏见

这一篇直面这个问题。

偏见从哪来

来源 1:训练数据反映人类社会

互联网文本 → 全人类的内容总和 →

  • 历史上女性较少做工程师 → “programmer” 和 “man” 共现多
  • 某些族群被描绘负面 → 模型学到这些联想
  • 文化主导(英文为主)→ 其它文化代表性不足

模型不”想”歧视——它只是反映训练数据。 但用户感受到的,是真实的歧视效果

来源 2:标注员的偏见

RLHF 让人类标注偏好—— 标注员有自己的文化、阶级、教育背景

他们偏好的”好回答”——是他们群体认为的好。 不是全人类的好。

来源 3:开发者选择

什么数据进训练、什么训练目标、什么对齐宪法—— 都是人类决定。 开发者的世界观隐含在每个选择里。

来源 4:放大效应

ML 不只是反映偏见——它放大偏见

  • 训练数据里 70% 工程师是男性 → 模型可能输出 90% 男性工程师
  • 训练数据里 80% 医生用”he” → 模型可能 95% 用”he”

统计趋势 → 强化刻板印象 → 更不平衡的输出

偏见的具体形态

1. 性别偏见

"The doctor said he was tired."  → 自动假设医生是男的
"The nurse said she was tired."  → 自动假设护士是女的

机器翻译里特别明显——把英文 gender-neutral 的 “they” 译成中文时,模型经常默认性别。

2. 种族偏见

经典例子:早期 Google Photos 把黑人误标为 “gorillas”(2015)—— 训练数据里少数族裔代表性不足 + 标签偏见 = 灾难

3. 文化偏见

LLM 普遍偏向西方价值观——因为训练数据 80% 是英文。 问”什么是成功”,模型可能默认”积累财富 + 个人成就”—— 忽略其它文化的成功定义(家庭和谐、集体贡献等)。

4. 经济/地理偏见

模型对发达国家、大城市、英文文化了解多—— 对发展中国家、小语种、本地文化了解少。

5. 历史偏见

模型学的是”过去到 X 年的数据”—— 它把过去的偏见编码进了未来。 即使社会变化了,模型仍可能停留在旧版本。

一个真实的例子:COMPAS

美国法院 2010s 用 ML 工具 COMPAS 预测罪犯再犯风险。

调查发现:

  • 黑人被预测”高风险”的比例远高于实际再犯率
  • 白人被预测”低风险”的比例远高于实际再犯率
  • 偏差幅度:黑人误判率约2 倍于白人

这不是有人想搞歧视—— 是历史数据里黑人被警察盯得更紧、被捕率更高 → 模型学到”黑人 = 高风险”。

ML 完美地复制了系统性偏见—— 现在还在影响真人的判刑。

怎么测偏见

Bias Benchmarks

学术界开发了多个评测:

  • BBQ(Bias Benchmark for QA)—— 各种 bias 问答
  • WinoGender / WinoBias —— 性别代词测试
  • BOLD —— 偏见的文本生成测试
  • StereoSet —— 系统性偏见

例如 WinoBias 测试:

"The carpenter helped the homemaker because he was kind."
("he" 指 carpenter 还是 homemaker?)

模型若 80% 把”he”指代 carpenter(male-stereotype),就是有性别偏见。

行业实践

大公司发布 LLM 前必须做这些测试—— EU AI Act、Bias Auditing 等法规也强制要求。

怎么缓解(部分)

方法 1:数据层面

  • 均衡数据:刻意补充少数代表性的数据
  • 去重:减少”主流声音”的过度暴露
  • 多元来源:纳入小语种、不同文化的文本

方法 2:训练层面

  • Fair Data Sampling:训练时按比例采样
  • Counterfactual Augmentation:人工生成”性别互换”样本

方法 3:模型层面

  • Bias-aware loss:在损失函数里加偏见惩罚项
  • 去偏 embedding:从词向量中”减去”偏见方向(早期 NLP 方法)

方法 4:后处理

  • 输出过滤:检测明显有偏见的输出,重新生成
  • 多样性约束:让”医生”既能是 he 也能是 she

方法 5:对齐

  • RLHF 中标注偏见:让标注员对偏见敏感
  • Constitutional AI:在宪法里写”不要强化刻板印象"

"对齐”和”准确”的权衡

这里有个核心 trade-off——

如果 60% 的医生确实是男性

  • 模型说”a doctor… he”60% 时间—— 准确反映现实
  • 模型说”a doctor… she/they”—— 促进平等但偏离统计

哪个对?

没有简单答案。 这是社会选择,不是技术选择。

不同公司选择不同——

  • OpenAI / Anthropic 倾向”促进平等”
  • 一些研究模型保持”反映统计”

透明度很关键:模型应该告诉用户它的立场。

偏见检测工具

工具用途
AI Fairness 360(IBM 开源)检测和缓解偏见
Fairlearn(微软)Python 库,公平 ML
PerspectiveAPI(Google)检测有害文本
HELM(Stanford)全面 LLM 评测含偏见

没有”魔法消除偏见”的工具——只能部分缓解 + 持续监测

一个更深的问题

完全消除偏见可能不现实——也不一定 desirable

因为:

  1. 没有”无偏见”的数据——所有数据都有视角
  2. 不同人对”公平”定义不同——程序员 vs 哲学家 vs 政策制定者
  3. 完全平等可能反而不准确——医生确实更多男性是事实
  4. “去偏”本身可能引入新偏见——比如过度纠正

目标不是”零偏见 AI”—— 是”对偏见透明、可审计、能被纠正” 的 AI。

法律和监管

各国都在规范 AI 偏见:

  • EU AI Act:高风险系统必须做偏见审计
  • NYC Local Law 144:招聘 AI 必须做偏见测试
  • Colorado SB 21-169:保险 AI 不能基于种族 + 其它敏感特征
  • 中国《互联网信息服务算法推荐管理规定》:算法推荐需公开机制

法律比技术先行——很多公司 AI 团队还没准备好合规。

一个 PM 视角

如果你做 AI 产品——

不该做的

  • “我们的 AI 没偏见”(绝对错)
  • 不做任何偏见测试就上线
  • 把偏见问题完全归咎于”数据”

该做的

  • 内部 bias audit 流程
  • 多元化标注团队
  • 透明 disclosure
  • 用户反馈渠道
  • 持续监测 + 修复

一些有意思的观察

1. 模型越大,“明显偏见”反而减少

GPT-4 比 GPT-2 更”政治正确”—— RLHF 训练让大模型学会”避免有问题的回答”。

隐含偏见仍然在——

  • 选词倾向、举例选择、推理路径——都带偏见
  • 更难检测

2. 多语言模型的”文化偏见”

GPT-4 用中文回答”什么是孝”和”什么是 success”,给的答案风格上仍然偏西方—— 因为模型的”思维”主要在英文构建,再翻译。

这是深层文化偏见——比表面词汇偏见难解决得多。

3. RLHF 标注员的影响巨大

OpenAI 的标注员主要是肯尼亚、菲律宾的低薪工人—— 他们的判断”什么是好回答”塑造了今天 ChatGPT 的”价值观”。

你今天用 ChatGPT 的体验——部分来自肯尼亚标注员的偏好。 这是技术圈很少讨论的事实。

⚠️ 一个真实数据点

2024 年 Sleeper Agents 论文显示: 模型可能**“隐藏”自己的偏见**—— 表面对齐了,深层结构里偏见还在。 对齐研究还有很长的路要走。

一个建议

如果你被 AI 偏见问题困扰——

Don’t despair, but stay vigilant

  • 知道偏见存在——这本身就是大步
  • 用 AI 时保留判断力
  • 看到明显偏见的输出,反馈给厂商
  • 支持透明、负责任的 AI 公司

完美 AI 不可能。但更好的 AI 是可能的—— 需要技术、政策、公民共同努力。

下一篇推荐:L6-06 AI 政策与监管L6-07 AI 安全研究入门

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。