Gemini: A Family of Highly Capable Multimodal Models
为什么这篇报告重要
Google 是 Transformer 的发明者(2017)—— 但没第一个做出 ChatGPT。
OpenAI 抢先 18 个月—— Google 终于在 2023 年 12 月发布 Gemini—— 其后 Gemini 1.5 / Gemini 2 / Gemini 3—— 追上并在某些方面超过 GPT-4。
Google 的反击战——花了 1 年,但站稳脚跟。
Gemini 的几代
Gemini 1.0(2023 年 12 月)
3 个版本:
- Ultra:旗舰(对标 GPT-4)
- Pro:中型(性价比)
- Nano:手机端
第一个”原生多模态”—— 不是后期加视觉,预训练就混合文字 + 图 + 音 + 视频。
Gemini 1.5 Pro(2024 年 2 月)
核心突破:1M+ 上下文。
- 处理整本书(几百页)
- 整段 1 小时视频
- 整个代码仓库
是当时所有 LLM 中上下文最长的。
Gemini 2.0(2024 末)
- 多模态原生(图、视频、音频流)
- Agent 能力大幅提升
- 速度更快(推理快 2×)
Gemini 3(2025)
- 进一步增强推理(对标 o1)
- 更长上下文(10M+ 实验性)
- Computer Use(操作电脑)
核心技术
Google 报告里披露的几个关键:
1. 原生多模态预训练
不是 GPT-4V 那种”先训文字、再加视觉”—— 而是从一开始就混合多模态训练:
预训练数据:
- 文字(互联网)
- 图(图 + alt 文字)
- 视频(视频 + 字幕 + 描述)
- 音频(音频 + 转写)
- 代码(GitHub)
模型从头学会所有模态间的关系—— 理论上更深的多模态理解。
2. 长上下文:1M token
Gemini 1.5 Pro 的杀手锏—— 1M token 上下文(约 70 万中文字)。
技术上:
- 改进的 attention 机制(细节未公开)
- 大幅训练数据扩展到长文档
- Position encoding 优化(RoPE 变种)
实测:1M token 内的”针在草堆”测试95%+ 准确率。
这让 Gemini 在长文档分析场景独占鳌头:
- 整本书摘要
- 多文档对比
- 长视频理解
- 整代码库重构
3. TPU 训练
Gemini 完全用 Google TPU 训练—— 不是 NVIDIA GPU。
TPU 优势:
- Google 自己设计的芯片,深度优化
- 比 GPU 更适合 Transformer
- 不受 NVIDIA 价格 / 供货影响
Google 是少数能”无 NVIDIA 训大模型”的公司。
4. 多模态 token
视频 → token 的方式:
视频 (60 fps × 1 hour) ──→
切成 1 fps 帧 = 3600 帧
每帧用 ViT 编码成 ~256 个 token
总共 ~92 万 token
↓
喂给 Transformer,像处理文字一样处理视频
这就是 1M 上下文为什么实用—— 1 小时视频差不多就是 1M token。
性能
在主流 benchmark 上
| 任务 | Gemini Ultra | GPT-4 | Claude 3 Opus |
|---|---|---|---|
| MMLU | 90.0% | 86.4% | 86.8% |
| GSM8K | 94.4% | 92.0% | 95.0% |
| HumanEval | 74.4% | 67.0% | 84.9% |
| MATH | 53.2% | 52.9% | 60.1% |
和 GPT-4 / Claude 3 接近—— Gemini 在 MMLU 上略胜(公认”最难 benchmark”)。
Gemini 1.5 Pro 的长上下文优势
| 任务 | Gemini 1.5 Pro 上下文 |
|---|---|
| 1 小时视频问答 | 准确率 80%+ |
| 70 万字小说摘要 | 高质量 |
| 全代码库 refactor | 数千文件可处理 |
没有竞品在长上下文上能匹敌(直到 Claude 4.6 也达到 2M)。
Google 生态集成
Gemini 深度集成进 Google 全家桶:
| 产品 | Gemini 集成 |
|---|---|
| Search | ”AI Overview”——搜索结果带 AI 总结 |
| Gmail | ”Help me write”、智能回复 |
| Docs / Slides / Sheets | 写作 + 数据分析助手 |
| Drive | 文档 AI 搜索 |
| YouTube | 视频摘要 + 字幕 |
| Android | Pixel 手机的”Magic Eraser”等 AI 功能 |
| Workspace | 企业版全套集成 |
这是 Google 的护城河—— OpenAI 没有这些产品入口。
一些有趣的细节
”天才小组”
Gemini 的核心团队是 Google DeepMind—— Demis Hassabis 领导(AlphaGo 创始人)。
合并了:
- Google Brain
- DeepMind
- Google Research
之前是分散的几个研究团队—— 为了对抗 OpenAI 才整合。
早期翻车
Gemini 1.0 Ultra 发布时翻车—— 图像生成有严重历史准确性问题:
- “美国开国元勋”生成多元种族(不准确)
- “纳粹士兵”生成多元种族(不当)
Google 紧急关闭图像功能 + 公开道歉。 对齐过度是另一种问题。
多模态的”哲学”
Google 强调 Gemini 是”多模态原生”—— 但实际意义有争议:
支持:
- 预训练混合数据
- 内部表示统一
- 跨模态推理更强
反对:
- GPT-4V 等也接近”原生”
- “原生”和”后期加”在大尺度下差异有限
行业共识:Gemini 在多模态上确实强—— 但不是”碾压”,是”并列”。
一些反思
”Google 为什么落后这么久”
2017 年发明 Transformer—— 2022 年 ChatGPT 引爆—— 2023 年 12 月才正式发布 Gemini。
慢的原因:
- 大公司决策慢
- 担心搜索业务被冲击
- 安全 / 合规更严
- 内部分散(多个团队)
经典”创新者困境”—— 颠覆自己的核心业务(Search)有阻力。
“TPU vs GPU”
Google 训 Gemini 完全用 TPU——
- 不依赖 NVIDIA
- 总成本可能更低
- 但只有 Google 能用
这是 Google 的独家优势—— 也是它能”独立”的原因。
Gemini 在 API 市场的地位
实际开发者使用:
- ChatGPT:第一(最早)
- Claude:第二(写作好)
- Gemini:第三(长上下文 + 便宜)
Google 在做内容产品(Search)上强—— 纯 API 市场上不如 OpenAI / Anthropic。
用代码
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel('gemini-2.0-flash')
# 简单对话
response = model.generate_content("Explain RAG to a beginner")
print(response.text)
# 多模态:图 + 文
import PIL.Image
img = PIL.Image.open("photo.jpg")
response = model.generate_content(["What's in this image?", img])
print(response.text)
# 长上下文:上传整本书
response = model.generate_content(["Summarize this book:", book_text])
print(response.text)
价格(Gemini 2.0 Flash):
- Input: $0.075 / M
- Output: $0.30 / M
比 GPT-4o 便宜 7×—— Google 用价格抢市场。
推荐配套阅读
- HelloAI: L5-01 多模态总览 + L4-01 LLM 训练
- Gemini 1.0 报告(2023 年 12 月)
- Gemini 1.5 报告(2024 年 2 月,长上下文)
- Google AI Blog —— 持续更新
2026 年 LLM 格局:
- OpenAI:生态最大、研究领先
- Anthropic:写作 / 代码强、对齐做得最好
- Google:多模态 + 长上下文 + 生态集成
- Meta(Llama):开源领头羊
- DeepSeek(中国):开源价格颠覆
每家都有自己的优势—— 没有”绝对赢家”,多元才是健康生态。
想要更多论文精读
订阅每周精选 —— 下一篇论文笔记直接送邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。