📄 论文精读 🏆 必读经典 · 2024 · Google DeepMind 2023-2024

Gemini: A Family of Highly Capable Multimodal Models

Gemini Team, Google DeepMind

arXiv:2312.11805 →

📖 如果你只读一段，读这段

Google 用 6 年时间 + 1 万张 TPU 训出的"原生多模态"大模型。1M+ 上下文窗口，是 GPT-4 的最大挑战者之一。

#Gemini#Google#多模态#大模型

为什么这篇报告重要

Google 是 Transformer 的发明者（2017）—— 但没第一个做出 ChatGPT。

OpenAI 抢先 18 个月—— Google 终于在 2023 年 12 月发布 Gemini—— 其后 Gemini 1.5 / Gemini 2 / Gemini 3—— 追上并在某些方面超过 GPT-4。

Google 的反击战——花了 1 年，但站稳脚跟。

Gemini 的几代

Gemini 1.0（2023 年 12 月）

3 个版本：

Ultra：旗舰（对标 GPT-4）
Pro：中型（性价比）
Nano：手机端

第一个”原生多模态”—— 不是后期加视觉，预训练就混合文字 + 图 + 音 + 视频。

Gemini 1.5 Pro（2024 年 2 月）

核心突破：1M+ 上下文。

处理整本书（几百页）
整段 1 小时视频
整个代码仓库

是当时所有 LLM 中上下文最长的。

Gemini 2.0（2024 末）

多模态原生（图、视频、音频流）
Agent 能力大幅提升
速度更快（推理快 2×）

Gemini 3（2025）

进一步增强推理（对标 o1）
更长上下文（10M+ 实验性）
Computer Use（操作电脑）

核心技术

Google 报告里披露的几个关键：

1. 原生多模态预训练

不是 GPT-4V 那种”先训文字、再加视觉”—— 而是从一开始就混合多模态训练：

预训练数据：
- 文字（互联网）
- 图（图 + alt 文字）
- 视频（视频 + 字幕 + 描述）
- 音频（音频 + 转写）
- 代码（GitHub）

模型从头学会所有模态间的关系—— 理论上更深的多模态理解。

2. 长上下文：1M token

Gemini 1.5 Pro 的杀手锏—— 1M token 上下文（约 70 万中文字）。

技术上：

改进的 attention 机制（细节未公开）
大幅训练数据扩展到长文档
Position encoding 优化（RoPE 变种）

实测：1M token 内的”针在草堆”测试95%+ 准确率。

这让 Gemini 在长文档分析场景独占鳌头：

整本书摘要

多文档对比

长视频理解

整代码库重构

3. TPU 训练

Gemini 完全用 Google TPU 训练—— 不是 NVIDIA GPU。

TPU 优势：

Google 自己设计的芯片，深度优化
比 GPU 更适合 Transformer
不受 NVIDIA 价格 / 供货影响

Google 是少数能”无 NVIDIA 训大模型”的公司。

4. 多模态 token

视频 → token 的方式：

视频 (60 fps × 1 hour) ──→
   切成 1 fps 帧 = 3600 帧
   每帧用 ViT 编码成 ~256 个 token
   总共 ~92 万 token
   ↓
喂给 Transformer，像处理文字一样处理视频

这就是 1M 上下文为什么实用—— 1 小时视频差不多就是 1M token。

性能

在主流 benchmark 上

任务	Gemini Ultra	GPT-4	Claude 3 Opus
MMLU	90.0%	86.4%	86.8%
GSM8K	94.4%	92.0%	95.0%
HumanEval	74.4%	67.0%	84.9%
MATH	53.2%	52.9%	60.1%

和 GPT-4 / Claude 3 接近—— Gemini 在 MMLU 上略胜（公认”最难 benchmark”）。

Gemini 1.5 Pro 的长上下文优势

任务	Gemini 1.5 Pro 上下文
1 小时视频问答	准确率 80%+
70 万字小说摘要	高质量
全代码库 refactor	数千文件可处理

没有竞品在长上下文上能匹敌（直到 Claude 4.6 也达到 2M）。

Google 生态集成

Gemini 深度集成进 Google 全家桶：

产品	Gemini 集成
Search	”AI Overview”——搜索结果带 AI 总结
Gmail	”Help me write”、智能回复
Docs / Slides / Sheets	写作 + 数据分析助手
Drive	文档 AI 搜索
YouTube	视频摘要 + 字幕
Android	Pixel 手机的”Magic Eraser”等 AI 功能
Workspace	企业版全套集成

这是 Google 的护城河—— OpenAI 没有这些产品入口。

一些有趣的细节

”天才小组”

Gemini 的核心团队是 Google DeepMind—— Demis Hassabis 领导（AlphaGo 创始人）。

合并了：

Google Brain
DeepMind
Google Research

之前是分散的几个研究团队—— 为了对抗 OpenAI 才整合。

早期翻车

Gemini 1.0 Ultra 发布时翻车—— 图像生成有严重历史准确性问题：

“美国开国元勋”生成多元种族（不准确）
“纳粹士兵”生成多元种族（不当）

Google 紧急关闭图像功能 + 公开道歉。 对齐过度是另一种问题。

多模态的”哲学”

Google 强调 Gemini 是”多模态原生”—— 但实际意义有争议：

支持：

预训练混合数据
内部表示统一
跨模态推理更强

反对：

GPT-4V 等也接近”原生”
“原生”和”后期加”在大尺度下差异有限

行业共识：Gemini 在多模态上确实强—— 但不是”碾压”，是”并列”。

一些反思

”Google 为什么落后这么久”

2017 年发明 Transformer—— 2022 年 ChatGPT 引爆—— 2023 年 12 月才正式发布 Gemini。

慢的原因：

大公司决策慢
担心搜索业务被冲击
安全 / 合规更严
内部分散（多个团队）

经典”创新者困境”—— 颠覆自己的核心业务（Search）有阻力。

“TPU vs GPU”

Google 训 Gemini 完全用 TPU——

不依赖 NVIDIA
总成本可能更低
但只有 Google 能用

这是 Google 的独家优势—— 也是它能”独立”的原因。

Gemini 在 API 市场的地位

实际开发者使用：

ChatGPT：第一（最早）
Claude：第二（写作好）
Gemini：第三（长上下文 + 便宜）

Google 在做内容产品（Search）上强—— 纯 API 市场上不如 OpenAI / Anthropic。

用代码

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel('gemini-2.0-flash')

# 简单对话
response = model.generate_content("Explain RAG to a beginner")
print(response.text)

# 多模态：图 + 文
import PIL.Image
img = PIL.Image.open("photo.jpg")
response = model.generate_content(["What's in this image?", img])
print(response.text)

# 长上下文：上传整本书
response = model.generate_content(["Summarize this book:", book_text])
print(response.text)

价格（Gemini 2.0 Flash）：

Input: $0.075 / M
Output: $0.30 / M

比 GPT-4o 便宜 7×—— Google 用价格抢市场。

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。