
最近 DeepSeek 可谓是出尽了风头。从 1 月 20 日发布了 R1 开始,DeepSeek 这家公司就逐步迈上了舆论的「风口浪尖」,几天时间冲上 App Store 与 Play Store 多地区榜单第一,各大平台热搜也是不断。加上最近正好属于过年放假期间,大家都有时间去体验、探讨这样一款国产的 AI 大语言模型。
我使用 AI 了多久
自从 OpenAI 在 22 年底的时候发布了 ChatGPT 3.5 开始,我便一直在使用。后面出了 Plus 之后,我也一直在续费使用到现在。
中间我也尝试过 Anthropic 出品的 Claude 以及 Google 出品的 Gemini,其中 Claude 在写代码层面应该是最好的,但是在产品等方面并不如 ChatGPT,因此我在好好体验了几个月的 Claude Pro 之后,还是放弃了续费 Claude。
24 年 11 月,我也在本地跑过 qwen,phi,DeepSeek v2 等模型,因为电脑是笔记本加上我本来也只想用它来当个 LLM 翻译后端,所以参数选择的 7b 的也够用。整体测试来看,DeepSeek v2 算还不错的(V3,R1 那时候还没发布)。
自 ChatGPT 3.5 → GPT 4(更智能) → GPT 4o(多模态) → ChatGPT o1(强化推理能力),每一个新版本的发布都意味着 ChatGPT 更加聪明、好用,但是在技术圈内造成的影响却一次比一次小。这很容易理解,毕竟什么事情都是从 0 到 1 是最难的。
R1 到底是什么水平?
从本次 DeepSeek R1 官方 Readme 发布的 benchmark 可以看到,R1 严格上其实并不算一个划时代的产品,因为他的问答准确性与 o1 模型处于伯仲之间。不过需要说明的是,这个基准测试虽然涵盖了 AIME 2024, CODEFORCES, MATH 500, MMLU 等,但本质上其实测试的方面还是逻辑推理能力。这也是可以理解的,毕竟诸如表达与理解能力的评判实际上并不具有唯一标准。
而表达与理解能力才是普通人感受最直接的方面。毕竟不是每个人都会整天问 DeepSeek 数学题或者写代码。
我个人感觉体验来看,DeepSeek 在中文的表达与理解能力是要比 o1 强的。因为 DeepSeek 并未公开模型训练的具体细节,只能猜测是因为 R1 的训练语料里中文方面涵盖的更广,或者针对中文专门做了优化。
为什么突然就火了
不论是国内,国外,圈内,圈外,为什么 DeepSeek R1 全方位都火了起来呢?
我仔细思考了一下,它火起来应该是有以下原因:
- DeepSeek 官方声称其训练成本很低,但是性能却是业界顶尖水平——让国外的很多花了几千万研发费用的公司感到恐慌;
- 它是开源的,用其蒸馏其他的小模型相比原模型极大提升了推理能力——推特上有不少人上传了在手机本地运行 DeepSeek R1 的视频;
- 它是中国的一家 23 年才成立的小公司开发的——以弱胜强,自古以来都是很有话题性,大家都爱看;
- 与 OpenAI o1 的对比:
- 免费使用,而 OpenAI Plus 用户每周也仅可使用 50 次 o1 对话——非常大气;
- 不需要科学上网——使用门槛比较低;
- 中文方面的表达理解能力要更强——网上有许多DeepSeek R1 饱含人文关怀、富含情感以及生命力,当然也有富含攻击性的回答。
前两点决定了它在技术圈的影响力。而后面几点导致在非技术圈也非常易于传播、使用,让每个使用过它的人都自觉成为了「水军」帮忙宣传。
另外还有一些优点比如 API 收费相比 o1 价格只有几十分之一,R1 相比 o1 还具备网络搜索功能。不过这些我觉得只算是锦上添花而已。
谁急了?
Anthropic 的 CEO 在 1 月 29 日在其博客上提倡加强限制显卡出口禁令、以维护美国 AI 霸权地位。其文中对于 R1 的技术创新点一笔带过,反倒是花更多的笔墨来展示他的傲慢:声称 DeepSeek R1 的模型性能只是美国 AI 公司 7 - 10 个月前的水平。
无独有偶,金融时报在 29 日发表的一篇报道:OpenAI 声称已经有证据证明 DeepSeek 使用了 OpenAI 的模型进行训练。有趣的是,Microsoft 拒绝对此事发表评论,并在当日迅速将 DeepSeek R1 上架 Azure 和 GitHub copilot。
毕竟二者是商业公司,必要时候需要给投资人信心,我们观察商业公司的真实想法不能看他说了什么,而是要看他做了什么。25 日,AMD 在社交平台宣布整合 DeepSeek-V3 到旗下最新款 MI300X GPU;NVIDIA 也在 30 日宣布 R1 可在 NVIDIA NIM 使用。
我们自然无从得知 Anthropic 和 OpenAI 的真实心理,但显然有人比他更坐不住:正如黑神话悟空发售时,steam 平台被僵尸网络进行 DDoS 攻击导致无法统计在线人数一样,DeepSeek 同样在最近被僵尸网络进行 DDoS 攻击:从一开始新用户注册报错,随后演变成了数次对话只有一次能成功,到 30 日的深度思考已经完全用不了。
这一场由 DeepSeek 掀起的 AI 飓风,已经慢慢让美国的科技霸权裂开第一道缝隙——他们越急,我们越该笑。
我的想法
自从 20 年美国对华为芯片断供之后,中国许多科技产业就开始走上了国产化之路。我其实不太擅长站在国家或者民族这种大的层面去说一些话,尤其是我之前工作接触过一些所谓的国产化项目,其不过是一些领导要求的面子工程。加上这几年国产 CPU、显卡不断更新迭代,我其实没什么感觉——龙芯、摩尔线程毕竟性能相比旗舰产品差距太远,我们普通消费者并不会因为国产化标签就去买。
当然,他们都需要时间,正因如此,DeepSeek 才显得与众不同。因为 R1 就是业界目前顶尖的 LLM 能达到的水准,其中文的表达、理解能力特别适合国内用户使用。作为一家成立不过一年半的公司,有这样的成熟度的产品,更是令人惊叹:它也意味着中国已经能自主完成科技创新,并走在世界的领先水平。
我个人非常期待后续 DeepSeek 能加入图片识别、语音助手、代码实时预览等功能,让更多人感受到 AI 带来的价值。