HelloAI
📄 论文精读 🏆 必读经典 · 2024 · Google DeepMind 2023-2024

Gemini: A Family of Highly Capable Multimodal Models

Gemini Team, Google DeepMind
TL;DR
Google 用 6 年时间 + 1 万张 TPU 训出的"原生多模态"大模型。1M+ 上下文窗口,是 GPT-4 的最大挑战者之一。
#Gemini#Google#多模态#大模型

为什么这篇报告重要

Google 是 Transformer 的发明者(2017)—— 但没第一个做出 ChatGPT

OpenAI 抢先 18 个月—— Google 终于在 2023 年 12 月发布 Gemini—— 其后 Gemini 1.5 / Gemini 2 / Gemini 3—— 追上并在某些方面超过 GPT-4

Google 的反击战——花了 1 年,但站稳脚跟。

Gemini 的几代

Gemini 1.0(2023 年 12 月)

3 个版本:

  • Ultra:旗舰(对标 GPT-4)
  • Pro:中型(性价比)
  • Nano:手机端

第一个”原生多模态”—— 不是后期加视觉,预训练就混合文字 + 图 + 音 + 视频

Gemini 1.5 Pro(2024 年 2 月)

核心突破:1M+ 上下文

  • 处理整本书(几百页)
  • 整段 1 小时视频
  • 整个代码仓库

是当时所有 LLM 中上下文最长的。

Gemini 2.0(2024 末)

  • 多模态原生(图、视频、音频流)
  • Agent 能力大幅提升
  • 速度更快(推理快 2×)

Gemini 3(2025)

  • 进一步增强推理(对标 o1)
  • 更长上下文(10M+ 实验性)
  • Computer Use(操作电脑)

核心技术

Google 报告里披露的几个关键:

1. 原生多模态预训练

不是 GPT-4V 那种”先训文字、再加视觉”—— 而是从一开始就混合多模态训练

预训练数据:
- 文字(互联网)
- 图(图 + alt 文字)
- 视频(视频 + 字幕 + 描述)
- 音频(音频 + 转写)
- 代码(GitHub)

模型从头学会所有模态间的关系—— 理论上更深的多模态理解。

2. 长上下文:1M token

Gemini 1.5 Pro 的杀手锏—— 1M token 上下文(约 70 万中文字)。

技术上:

  • 改进的 attention 机制(细节未公开)
  • 大幅训练数据扩展到长文档
  • Position encoding 优化(RoPE 变种)

实测:1M token 内的”针在草堆”测试95%+ 准确率

这让 Gemini 在长文档分析场景独占鳌头:

  • 整本书摘要
  • 多文档对比
  • 长视频理解
  • 整代码库重构

3. TPU 训练

Gemini 完全用 Google TPU 训练—— 不是 NVIDIA GPU。

TPU 优势:

  • Google 自己设计的芯片,深度优化
  • 比 GPU 更适合 Transformer
  • 不受 NVIDIA 价格 / 供货影响

Google 是少数能”无 NVIDIA 训大模型”的公司

4. 多模态 token

视频 → token 的方式:

视频 (60 fps × 1 hour) ──→
   切成 1 fps 帧 = 3600 帧
   每帧用 ViT 编码成 ~256 个 token
   总共 ~92 万 token

喂给 Transformer,像处理文字一样处理视频

这就是 1M 上下文为什么实用—— 1 小时视频差不多就是 1M token。

性能

在主流 benchmark 上

任务Gemini UltraGPT-4Claude 3 Opus
MMLU90.0%86.4%86.8%
GSM8K94.4%92.0%95.0%
HumanEval74.4%67.0%84.9%
MATH53.2%52.9%60.1%

和 GPT-4 / Claude 3 接近—— Gemini 在 MMLU 上略胜(公认”最难 benchmark”)。

Gemini 1.5 Pro 的长上下文优势

任务Gemini 1.5 Pro 上下文
1 小时视频问答准确率 80%+
70 万字小说摘要高质量
全代码库 refactor数千文件可处理

没有竞品在长上下文上能匹敌(直到 Claude 4.6 也达到 2M)。

Google 生态集成

Gemini 深度集成进 Google 全家桶

产品Gemini 集成
Search”AI Overview”——搜索结果带 AI 总结
Gmail”Help me write”、智能回复
Docs / Slides / Sheets写作 + 数据分析助手
Drive文档 AI 搜索
YouTube视频摘要 + 字幕
AndroidPixel 手机的”Magic Eraser”等 AI 功能
Workspace企业版全套集成

这是 Google 的护城河—— OpenAI 没有这些产品入口。

一些有趣的细节

”天才小组”

Gemini 的核心团队是 Google DeepMind—— Demis Hassabis 领导(AlphaGo 创始人)。

合并了:

  • Google Brain
  • DeepMind
  • Google Research

之前是分散的几个研究团队—— 为了对抗 OpenAI 才整合。

早期翻车

Gemini 1.0 Ultra 发布时翻车—— 图像生成有严重历史准确性问题

  • “美国开国元勋”生成多元种族(不准确)
  • “纳粹士兵”生成多元种族(不当)

Google 紧急关闭图像功能 + 公开道歉。 对齐过度是另一种问题。

多模态的”哲学”

Google 强调 Gemini 是”多模态原生”—— 但实际意义有争议:

支持:

  • 预训练混合数据
  • 内部表示统一
  • 跨模态推理更强

反对:

  • GPT-4V 等也接近”原生”
  • “原生”和”后期加”在大尺度下差异有限

行业共识:Gemini 在多模态上确实强—— 但不是”碾压”,是”并列”。

一些反思

”Google 为什么落后这么久”

2017 年发明 Transformer—— 2022 年 ChatGPT 引爆—— 2023 年 12 月才正式发布 Gemini。

慢的原因

  • 大公司决策慢
  • 担心搜索业务被冲击
  • 安全 / 合规更严
  • 内部分散(多个团队)

经典”创新者困境”—— 颠覆自己的核心业务(Search)有阻力。

“TPU vs GPU”

Google 训 Gemini 完全用 TPU——

  • 不依赖 NVIDIA
  • 总成本可能更低
  • 只有 Google 能用

这是 Google 的独家优势—— 也是它能”独立”的原因。

Gemini 在 API 市场的地位

实际开发者使用:

  • ChatGPT:第一(最早)
  • Claude:第二(写作好)
  • Gemini:第三(长上下文 + 便宜)

Google 在做内容产品(Search)上强—— 纯 API 市场上不如 OpenAI / Anthropic

用代码

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel('gemini-2.0-flash')

# 简单对话
response = model.generate_content("Explain RAG to a beginner")
print(response.text)

# 多模态:图 + 文
import PIL.Image
img = PIL.Image.open("photo.jpg")
response = model.generate_content(["What's in this image?", img])
print(response.text)

# 长上下文:上传整本书
response = model.generate_content(["Summarize this book:", book_text])
print(response.text)

价格(Gemini 2.0 Flash):

  • Input: $0.075 / M
  • Output: $0.30 / M

比 GPT-4o 便宜 7×—— Google 用价格抢市场。

推荐配套阅读

  • HelloAI: L5-01 多模态总览 + L4-01 LLM 训练
  • Gemini 1.0 报告(2023 年 12 月)
  • Gemini 1.5 报告(2024 年 2 月,长上下文)
  • Google AI Blog —— 持续更新
💡 一个比较

2026 年 LLM 格局:

  • OpenAI:生态最大、研究领先
  • Anthropic:写作 / 代码强、对齐做得最好
  • Google:多模态 + 长上下文 + 生态集成
  • Meta(Llama):开源领头羊
  • DeepSeek(中国):开源价格颠覆

每家都有自己的优势—— 没有”绝对赢家”多元才是健康生态

📬

想要更多论文精读

订阅每周精选 —— 下一篇论文笔记直接送邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。