我是如何看待 DeepSeek R1 的

R1 的发布意味着什么

Feb 1, 2025
2047
#OpenAI#DeepSeek#ChatGPT
https://img13.360buyimg.com/ddimg/jfs/t1/252471/33/17665/19787/679e2200F13482fa6/b77ea0ace7a85799.jpg

最近 DeepSeek 可谓是出尽了风头。从 1 月 20 日发布了 R1 开始,DeepSeek 这家公司就逐步迈上了舆论的「风口浪尖」,几天时间冲上 App Store 与 Play Store 多地区榜单第一,各大平台热搜也是不断。加上最近正好属于过年放假期间,大家都有时间去体验、探讨这样一款国产的 AI 大语言模型。

我使用 AI 了多久

自从 OpenAI 在 22 年底的时候发布了 ChatGPT 3.5 开始,我便一直在使用。后面出了 Plus 之后,我也一直在续费使用到现在。

中间我也尝试过 Anthropic 出品的 Claude 以及 Google 出品的 Gemini,其中 Claude 在写代码层面应该是最好的,但是在产品等方面并不如 ChatGPT,因此我在好好体验了几个月的 Claude Pro 之后,还是放弃了续费 Claude。

24 年 11 月,我也在本地跑过 qwen,phi,DeepSeek v2 等模型,因为电脑是笔记本加上我本来也只想用它来当个 LLM 翻译后端,所以参数选择的 7b 的也够用。整体测试来看,DeepSeek v2 算还不错的(V3,R1 那时候还没发布)。

自 ChatGPT 3.5 → GPT 4(更智能) → GPT 4o(多模态) → ChatGPT o1(强化推理能力),每一个新版本的发布都意味着 ChatGPT 更加聪明、好用,但是在技术圈内造成的影响却一次比一次小。这很容易理解,毕竟什么事情都是从 0 到 1 是最难的。

R1 到底是什么水平?

从本次 DeepSeek R1 官方 Readme 发布的 benchmark 可以看到,R1 严格上其实并不算一个划时代的产品,因为他的问答准确性与 o1 模型处于伯仲之间。不过需要说明的是,这个基准测试虽然涵盖了 AIME 2024, CODEFORCES, MATH 500, MMLU 等,但本质上其实测试的方面还是逻辑推理能力。这也是可以理解的,毕竟诸如表达与理解能力的评判实际上并不具有唯一标准。

而表达与理解能力才是普通人感受最直接的方面。毕竟不是每个人都会整天问 DeepSeek 数学题或者写代码。

我个人感觉体验来看,DeepSeek 在中文的表达与理解能力是要比 o1 强的。因为 DeepSeek 并未公开模型训练的具体细节,只能猜测是因为 R1 的训练语料里中文方面涵盖的更广,或者针对中文专门做了优化。

为什么突然就火了

不论是国内,国外,圈内,圈外,为什么 DeepSeek R1 全方位都火了起来呢?

我仔细思考了一下,它火起来应该是有以下原因:

  1. DeepSeek 官方声称其训练成本很低,但是性能却是业界顶尖水平——让国外的很多花了几千万研发费用的公司感到恐慌;
  2. 它是开源的,用其蒸馏其他的小模型相比原模型极大提升了推理能力——推特上有不少人上传了在手机本地运行 DeepSeek R1 的视频;
  3. 它是中国的一家 23 年才成立的小公司开发的——以弱胜强,自古以来都是很有话题性,大家都爱看;
  4. 与 OpenAI o1 的对比:
    • 免费使用,而 OpenAI Plus 用户每周也仅可使用 50 次 o1 对话——非常大气;
    • 不需要科学上网——使用门槛比较低;
    • 中文方面的表达理解能力要更强——网上有许多DeepSeek R1 饱含人文关怀、富含情感以及生命力,当然也有富含攻击性的回答。

前两点决定了它在技术圈的影响力。而后面几点导致在非技术圈也非常易于传播、使用,让每个使用过它的人都自觉成为了「水军」帮忙宣传。

另外还有一些优点比如 API 收费相比 o1 价格只有几十分之一,R1 相比 o1 还具备网络搜索功能。不过这些我觉得只算是锦上添花而已。

谁急了?

Anthropic 的 CEO 在 1 月 29 日在其博客上提倡加强限制显卡出口禁令、以维护美国 AI 霸权地位。其文中对于 R1 的技术创新点一笔带过,反倒是花更多的笔墨来展示他的傲慢:声称 DeepSeek R1 的模型性能只是美国 AI 公司 7 - 10 个月前的水平。

无独有偶,金融时报在 29 日发表的一篇报道:OpenAI 声称已经有证据证明 DeepSeek 使用了 OpenAI 的模型进行训练。有趣的是,Microsoft 拒绝对此事发表评论,并在当日迅速将 DeepSeek R1 上架 Azure 和 GitHub copilot。

毕竟二者是商业公司,必要时候需要给投资人信心,我们观察商业公司的真实想法不能看他说了什么,而是要看他做了什么。25 日,AMD 在社交平台宣布整合 DeepSeek-V3 到旗下最新款 MI300X GPU;NVIDIA 也在 30 日宣布 R1 可在 NVIDIA NIM 使用

我们自然无从得知 Anthropic 和 OpenAI 的真实心理,但显然有人比他更坐不住:正如黑神话悟空发售时,steam 平台被僵尸网络进行 DDoS 攻击导致无法统计在线人数一样,DeepSeek 同样在最近被僵尸网络进行 DDoS 攻击:从一开始新用户注册报错,随后演变成了数次对话只有一次能成功,到 30 日的深度思考已经完全用不了。

这一场由 DeepSeek 掀起的 AI 飓风,已经慢慢让美国的科技霸权裂开第一道缝隙——他们越急,我们越该笑。

我的想法

自从 20 年美国对华为芯片断供之后,中国许多科技产业就开始走上了国产化之路。我其实不太擅长站在国家或者民族这种大的层面去说一些话,尤其是我之前工作接触过一些所谓的国产化项目,其不过是一些领导要求的面子工程。加上这几年国产 CPU、显卡不断更新迭代,我其实没什么感觉——龙芯、摩尔线程毕竟性能相比旗舰产品差距太远,我们普通消费者并不会因为国产化标签就去买。

当然,他们都需要时间,正因如此,DeepSeek 才显得与众不同。因为 R1 就是业界目前顶尖的 LLM 能达到的水准,其中文的表达、理解能力特别适合国内用户使用。作为一家成立不过一年半的公司,有这样的成熟度的产品,更是令人惊叹:它也意味着中国已经能自主完成科技创新,并走在世界的领先水平。

我个人非常期待后续 DeepSeek 能加入图片识别、语音助手、代码实时预览等功能,让更多人感受到 AI 带来的价值。

我是如何看待 DeepSeek R1 的

https://blog.itswincer.com/posts/china-ai-breakthrough-deepseek-r1-showdown/

作者

Wincer

更新于

Feb 1, 2025

许可协议

CC BY-NC-ND 4.0
  1. Mar 14, 2023

    ChatGPT 与 TTS 之间奇妙的反应
  2. Nov 10, 2024

    个人网络相册搭建方案
  3. Apr 5, 2023

    OpenCore 引导安装 macOS Ventura 教程
  4. Dec 10, 2022

    我最近订阅的一些软件服务
  5. Jul 2, 2022

    从一次 DNS 流量测试说起
  6. Nov 27, 2021

    我的 FreeBSD 服务器配置