L0 第 9 篇 🥚 难度 🕒 8 分钟

ChatGPT / Claude / Gemini 怎么选？——一份不站队的横评

不吹也不黑，把三大模型的优劣摆在桌面上。哪个最适合你，取决于你要干什么。

阿

阿莱

2026/6/4

如果你逛过 AI 圈，会发现这是个比手机阵营更激烈的派系战争。GPT 党、Claude 党、Gemini 党互相鄙视，连小红书都有”我用了 3 个月发现 Claude 才是真神”和”GPT 还是稳”的攻防。

这篇不站队。我把三大模型——加上国内的两个——的真实差异摆在桌面上。看完你会知道：你的具体场景，应该用哪个。

三大主流（2026 年现状）

🟢 ChatGPT（OpenAI）

身份：AI 圈”老大哥”，全球用户最多。

强项：

能用工具最多：联网搜索、图像生成（DALL·E）、数据分析（代码解释器）、自定义 GPT、记忆功能等
生态最丰富：API 价格相对实惠，第三方插件最多
图像生成：DALL·E 3 在文字理解准确度上仍然领先 Midjourney
多模态：GPT-4o 处理图、声、文混合输入很流畅

弱项：

写作风格偏”模板化”：用过的人能一眼看出”这是 ChatGPT 写的”
拒绝率较高：对一些”灰色”话题相对保守
价格：API 调用相对贵

推荐人群：

第一次用 AI 的人（资源最多、最容易上手）
需要多种工具组合的人
经常做数据分析的人

🟣 Claude（Anthropic）

身份：Anthropic 公司的旗舰产品，2026 年迅速崛起。

强项：

写作能力最强：风格自然、有人味，被很多写作者偏爱
长文本处理：上下文窗口最大（GPT-4o 128k，Claude 4.6 已经 2M）
代码能力：在 SWE-bench 等真实编程评测上多次领先
拒绝率较低：对成人讨论、复杂伦理话题更愿意深入
更”诚实”：更愿意说”我不确定”

弱项：

没有原生图像生成（只能看图，不能生成）
联网功能弱（直到最近才有 web search）
国内访问难度大

推荐人群：

需要做大量写作、文本分析的人
程序员（特别是用 Cursor 等工具的）
处理长文档（书、合同、论文）的人

🔵 Gemini（Google）

身份：Google 出品，依托庞大的 Google 生态。

强项：

联网最深：和 Google Search 深度集成，事实查询最准
免费版能力强：免费用户能用到接近 GPT-4 级别的模型
多模态：和 YouTube、Gmail、Drive 深度集成
长上下文：处理几小时视频毫无压力

弱项：

写作风格被认为”较干”
国内 access 不便
代码能力略逊于 Claude/GPT

推荐人群：

重度 Google 生态用户（Gmail、Drive、YouTube）
经常需要查实时信息的人
预算敏感（免费版好用）

国内主流

🟡 豆包 / 通义千问 / 文心一言 / Kimi

各家都有自己的特点：

豆包（字节跳动）：综合体验最像 ChatGPT，免费、流畅
通义千问（阿里）：技术派、开源版本多
文心一言（百度）：先发优势、和百度搜索整合
Kimi（月之暗面）：长文本处理强、写作派偏爱

国内大模型在中文文化语境理解上有天然优势。比如理解古诗词、历史典故、网络梗、本土俚语——通常比国际模型更准。

但在英文文本、跨语言任务、最前沿能力上，仍然落后国际模型 6-12 个月。

横向对比表（2026 年中）

维度	ChatGPT	Claude	Gemini	国内
写作流畅度	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
写代码	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
联网 / 实时	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
长上下文	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
图像生成	⭐⭐⭐⭐⭐	❌	⭐⭐⭐	⭐⭐⭐⭐
工具 / 生态	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
中文优化	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
国内可用	⚠️	⚠️	⚠️	✅
免费版能力	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
月费（专业版）	$20	$20	$20	¥29-99

💡 一个不浪费时间的选法

不要花时间挑选”最好的”那个——它们在你日常 99% 的场景里差别不大。选一个你最方便用的，先把它用熟。半年后你就能凭直觉判断什么任务该用哪个。

我推荐的”组合套餐”

如果你愿意花点钱（约 $40/月），最强大的组合：

Claude 付费 + ChatGPT 付费

长写作 / 代码 / 复杂分析 → Claude 图像生成 / 数据分析 / 实时搜索 → ChatGPT

如果你只想花一份钱：

ChatGPT 付费——最”瑞士军刀”，适应面最广

如果你预算为 0：

Gemini 免费版 + 豆包——足够日常 90% 场景

如果你是在国内（不便访问国际服务）：

豆包 + Kimi——豆包做日常、Kimi 做长文本

一个建议

不要”一个模型用到死”。至少同时关注 2 个，比较它们对同一问题的回答。

理由：

模型有”风格偏好”——某些问题某个模型答得更顺
模型有”知识盲区”——一个不会的另一个可能会
模型有”安全偏好”——一个拒绝的另一个可能就答

最重要的：不要因为一个模型在某个问题上回答得”惊艳”，就觉得它在所有问题上都最强。它只是在那一个问题上的表现，更对你胃口。

一个常见误区

很多人挑模型时纠结”它的参数多少 B”——

参数量大≠能力强。模型的能力是”参数 + 数据 + 训练方法”的复合结果。一个 70B 参数训练得好的模型，可能超过 175B 训练得普通的。

实战中，直接试你自己的真实任务，比看任何技术参数都准。

📝 一个建议的测试方法

找 5 个你日常真的会问的问题，分别拿给 3 个 AI 答，看谁的答案对你最有用。这比读 100 篇横评都准。

下一篇：《AI 安全：你的数据去哪了？》——你和 AI 聊的每句话，是怎么处理的？

🔗 被以下 2 篇文章引用

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。