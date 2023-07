在 OpenAI 祭出 GPT-4 的 API 和“最强插件”代码解释器后,竞争对手显然坐不住了。

就在刚刚,Anthropic 旗下 Claude 发布第二代 —— 没错,就是被外界评价为 GPT-4 最强竞品的那一个。

浅划一下这次更新动作的重点:

免费,不用排队,自己用邮箱注册即可登录。

科技大佬们打起来真是妙啊,妈妈再也不用担心 ChatGPT / GPT-4 将我拒之门外后,打工或写作业时没有 AI 用了!

英伟达 AI 高级科学家 Jim Fan 火速尝鲜,并在推特上分享了自己的 Claude2 用户体验。

关于 Jim Fan 老师谈到的 Things you should know,量子位挑了些重点:

免费使用!

Claude2(100K 上下文)比 GPT-4-4K 便宜了 4-5 倍。

实际可以支持 20 万 token 上下文,约 15 万个单词,输入一本书不在话下;不过现在只开放了 10 万 token 长度。

知识更新鲜,知识截止时间是 2023 年初,而 GPT-4 停在 2021 年 9 月;

可以将多个文档导入后,询问文档之间概念的关系,支持 txt、pdf 多种格式(ChatPDF 之类的应用,危)

代码、小学数学能力,比初代 Claude 有所进步。

国内 AI 博主海辛也在微博上惊讶连连。

因为上传自己的简历后,Claude2 分析出了她的 MBTI 人格:

除了他们,第一波冲进网页体验 Claude2 的网友们已经在激情分享了自己的体验感:

不错子,和 GPT-4-32k 比,Claude2 的回答更个性化~

于是乎,量子位先冲了一波网页对话,来看我们的人肉测验 ——

咦,Claude 更新了?注册一个试试

首先奉上最有节目效果的弱智吧 Benchmark,给读者朋友们开开胃。

问的问题无外乎弱智吧的典中典,譬如“咖啡算不算豆浆”“数据线可不可以暂存数据”之类的。

看到 Claude2 一本正经地回答弱智吧问题,就会发现 AI 还是太单纯了,看不出人类的小心机。

不过正经地看,这些回答倒也没毛病。

上面的两个问题算 Claude2 顺利过关,那么如果提问一些更无厘头的问题呢?

问,玉皇大帝到底住在九重天的哪一层?

答,从立足点来看,玉皇大帝所在的天庭,应该处于平流层,因为“这更符合天庭圣洁的定位”。

当然,没有人能评判这个回答到底对还是错,但至少 Claude2 的这一通分析,还算有理有据。

开胃小菜就展示到这里,下面上正餐!

长文档是本次更新的一大亮点,这一点已经被推特网友们惊呼鹅妹子嘤了。

比如上传两个 pdf,可以看到,Claude2 可以从两个 pdf 文档中做出摘要,这两个文档一个关于“语言流变模式”,一个关于“对称性”,并且将文档内容分点列在对话框中:

此前,量子位就出过让初代 Cladue-100k 版本在 20 秒速通 92 页论文的攻略《白嫖 GPT-4 最强竞品!》。

不只是较大的文档,根据 Claude2 开放的 10 万 token 的上下文来看,一次性上传一本书让它读,也是小菜一碟。

对普通用户来说,现在不仅能够上传长文档,还可以用上传的文件构建自己的知识库,对 Claude 翻阅文档后进行回答,真的是非常实用。

以至于内心出现一个疑问,会不会在 ChatGPT 摊薄 Jasper、Notion 等公司的蛋糕后,Claude 也要对 ChatPDF 类工具下手了?

最后,我们为大家奉上今天的餐后甜点:让 Claude2 来写个程序试试。

为了考验 Claude 设计算法的能力,我们选择了一种古典密码,让它试着写个解密程序出来。

这种密码叫做维吉尼亚密码,可以理解成二维的凯撒(位移)密码,其中包括密钥。

举个例子说明一下它的算法:

假如明文是 B,密钥是 C,B 是字母表中第二个,那么从 C 开始数的第二个字母 D 就是密文。

如果数到了 Z,就重新从 A 开始接着数,密钥长度不足时则进行循环。

解密自然就是把加密过程倒过来。

Claude 输出了这样的代码(C++,下同):

#include <tream> #include <string> using namespace std; string decryptVigenere(string ciphertext, string keyword) { string plaintext; int keywordIndex = 0; for (int i = 0; i < ciphertext.length(); i++) { int p = (ciphertext[i] - 'A') - (keyword[keywordIndex] - 'A'); p = (p + 26) % 26; plaintext += (char)(p + 'A'); keywordIndex = (keywordIndex + 1) % keyword.length(); } return plaintext; } int main() { string ciphertext; cout << "请输入密文:"; cin >> ciphertext; string keyword; cout << "请输入密钥:"; cin >> keyword; string plaintext = decryptVigenere(ciphertext, keyword); cout << "明文是:" << plaintext << endl; return 0; }

我们把“CHATGPT”用密钥“CLAUDE”进行了加密,密文是“ESANJTV”,并尝试用 Claude 给出的程序解密。

一次就成功了,看来 Claude 的代码能力的确没让我们失望。

这个问题可能有些简单,我们再加大难度试试。

我们试着从 LeetCode 中找了一道中等难度的问题,人类解这道题的通过率大概是 60%。

给定一个长度为 n 的整数数组 height 。有 n 条竖直的线,第 i 条线的两个端点是 (i, 0) 和 (i, height [i]) 。找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水(容器不能倾斜)。返回容器可以储存的最大水量。

这样说可能不那么容易想象,下面的这张图或许更加直观:

原题中给出的示例一共有 9 条线,高度分别为“1,8,6,2,5,4,8,3,7”,相应的最大水量是 49。

我们给 Claude2 的 Promot 是酱婶儿的:

写一个 C++ 程序解决这个问题,不要自己设定初始值,让用户输入:(接上面的问题)

Claude2 给出了这样的答案:

#include <tream> #include <vector> using namespace std; int maxArea(vector<int>& height) { int max_area = 0; int n = height.size(); for (int i = 0; i < n; i++) { for (int j = i + 1; j < n; j++) { int width = j - i; int h = min(height[i], height[j]); max_area = max(max_area, width * h); } } return max_area; } int main() { vector<int> height; int input; cout << "请输入一系列整数:" << endl; while(cin >> input) { height.push_back(input); } cout << "最大面积为: " << maxArea(height) << endl; return 0; } }

我们没让 Claude2 专门调整输入和输出格式,所以没有提交给 LeetCode,而是直接运行的。

用的数据也是上面提到的,结果表明,Claude2 给出的代码至少在核心算法上是正确的。

(下图输入中的 a 是告诉 CPU 这一系列整数输入完了,可以替换成任意非数字字符)

看来这个问题也没能难倒 Claude2。

除了代码,Claude2 据称还拥有小学级别的数学水平。

那就顺便用经典的鸡兔同笼问题考一考它(这道题是 ChatGPT 出的):

反复尝试了很多次,虽然方程式列得没有问题,但 Claude2 解出的答案都是 20(正确答案应该是 40)。

看来计算这种事,对 Claude2 来说还是有点困难。

有关这次更新的更多信息,可以看下 Anthropic 的宣传片:

与 OpenAI“撕”出来的 AI 公司

见识过 Claude2 的表现后,那就不得不提一下背后的公司 Anthropic,毕竟真的有点意思。

Anthropic 自称是一家 AI 安全公司,且具有公益性(PBC)。

眼下,它和 OpenAI 同样将重心放在生成式 AI 上。1 月份,公司在市场上已经有 50 亿美元估值。

Anthropic 由 OpenAI 前研究副总裁 Dario Amodei 带领 10 名员工创业,于 2021 年成立。

这里面既有 GPT-3 首席工程师 Tom Brown,也有 OpenAI 安全和政策副总裁 Daniela Amodei(Dario 的姐姐),可以说是带走了相当一批核心人才。

出走成立新公司的原因之一,自然是对 OpenAI 现状并不满意。

从前几年开始,微软频频给 OpenAI 注资,随后又要求他们使用 Azure 超算来搞研究,而且将技术授权给微软,甚至为微软自己的投资活动筹集资金。

这与 OpenAI 创立的初衷相悖,一批员工便想到了离职创业。

当然,还有一部分原因是这群人想做能控制、可解释的 AI,说白了就是先搞明白 AI 模型背后的原理,从而在提供工具的同时设计更多可解释的 AI 模型。

于是,在 OpenAI 彻底变成“微软揽钱机器”后,他们便从这家公司离开,创办了 Anthropic。

现如今,微软真的和 OpenAI 有了“深度绑定”的味道。

然而既狗血又八卦味十足的事情是,今年 2 月,谷歌 CEO 劈柴哥重磅宣布,斥资 3 亿美元,投的就是 Anthropic。

之所以被外界抱以厚望,称呼 Claude2 为 GPT-4 最强竞品,不仅仅是因为 Claude 实测下来体验确实位于第一梯队,还因为背后实力强大的“爸爸们”:

今年 5 月,该公司表示筹集了 4.5 亿美元,使 Anthropic 筹集的资金总额超过 10 亿美元。

在谷歌入股之前,Anthropic 就已经获得了多位大佬的投资,如 Skype 创始人 Jaan Tallinn,Facebook 联创 Dustin Moskovitz,谷歌前 CEO、现技术顾问 Eric Schmidt 等人。

现在,合作伙伴列表里除了 Zoom 和 Notion.AI,还多了 Jasper.AI 的名字。

不仅如此,公司核心技术 Constitution AI 也备受瞩目。

它主要围绕“语言模型如何决定它将涉及哪些问题以及它认为哪些问题不合适?为什么它会鼓励一些行动而阻止另一些行动?语言模型可能具有哪些价值?”展开。

为了解决上述问题,它让 AI 尽可能遵循很多原则。

原则条目有很多,包括联合国宣言、Anthropic 从研究中自己发现的原则,DeepMind 在 Sparrow 研究中提出的原则,甚至还借鉴了苹果的服务条款。

并且是通过 AI 反馈的方式,来评估输出,应对目前 AI 的缺点。具体体现在 AI 训练过程中,分为两个阶段:

第一阶段,模型被训练使用一套原则和一些过程的例子,来评估和修改自己的反应;

第二阶段,模型通过强化学习进行训练,使用基于原则集的 AI 生成的反馈来选择和输出更无害的内容。

这一点与 ChatGPT 的的杀手锏 RLHF(人类反馈强化学习)大相径庭,而 Anthropic 给出的解释是:

基于 Constitution AI 的强化学习,比从 RLHF 中强化学习得出的生成内容,更有用,且更无害。 并且,还更容易规模化。

在这套 Constitution AI,迭代到 2.0 的 Claude,确实在导入文件、上下文窗口理解等功能方面,比 GPT-4 更引人注目。

不过也不是完美的,比如 GRE 考试成绩上,Claude2 就 5 局 3 败,输给了 GPT-4。

但不可否认,巨佬们在 AI 方面你追我赶的局面,让本普通用户切切实实感受了一波渔翁得利的快乐,嘻嘻嘻(狗头)。

速来自己肉测:

