比 ChatGPT4 還強?深度測評最新AI神器 Claude3

Claude3,正式上線。

這個由 OpenAI 分裂出去的兄弟公司 Anthropic,在悄然無息之間,就這么默默地把 Claude3 發了。

沒有所謂的發布會,沒有什么華麗的輿論,就僅僅在 X 上發了個帖子。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

我發現現在的這些 AI 公司真挺有意思,都把 X 當成發布主陣地了。。。

字很少,但是事挺大。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

一口氣發了 3 個模型,Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

這個名字就取的...很有故事。

Opus 大概意思就是史詩級樂章,牛逼上天那種。

Sonnet 是十四行詩。

Haiku 是俳句,日本的那種三行短詩。

所以可以簡單的理解成:Opus(超大杯)、Sonnet(大杯)、Haiku(中杯)

這三個的區別沒什么特別可說的,文章最后放三張截圖就能看明白。

主要還是他們附加的這么一張圖。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

Claude3 的 Opus 模型,全面超越 GPT4。

而且還是在幾個任務 0-shot 的情況下。

我用圖里面的舉下例子,比如 MGSM,多語言數學推理這個測試集。

Claude3 Opus 達到 90.7%的準確率,用的是 0-shot,GPT4 是 8-shot,達到了 74.5%。

0-shot 意味著大模型沒有在 Prompt 里給任何示例,就直接被要求完成任務。而 8-shot 則是在干活前,給了 8 個示例。

你這就能看出來區別了。。。一個沒給示例直接上,一個給了 8 個示例,給了 8 個示例的 GPT-4 反而還打不過 Claude3。

在復雜的推理任務上,Claude3 可以說是全面吊打 GPT-4。

而在另幾個比如 MMLU、GSM8K 這種語言類知識類的測試集上,跟 GPT4 基本上差不太多,所以整體核心上,還是推理能力的巨幅提升。

反正,這個 Claude3 Opus 還是很吸引我的。。。

但是吧,Claude 這個狗東西,果然跟 OpenAI 學的一套一套的,免費的只能用 Sonnet,Opus 只有氪了 20 刀的會員才能用。。。。

呸。。。狗男人。。。

在我 TM 的炸了 8 個號之后。。。。。。。。。。。。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

所以那咱咋辦呢,那只能送他 20 刀。。。

在瘋狂的跑了幾個小時之后。。。也測了很多在 2023 年 8 月后的 case 之后。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

我給 Claude 總結 3 個特點,分別是:

獨一檔的推理能力、跟 GPT4V 打平的多模態、200K 長文本優化。

一、獨一檔的推理能力

其實從上文就能看到,Claude3 進化最大的,就是推理,就是邏輯。

不過單看參數,肯定感受不到,那就放幾個我覺得很有代表性的例子吧。

解釋補集法的概念,并用補集法計算這道概率題:"一家公司有兩個部門,A 部門 3 個男生,2 個女生,B 部門 4 個男生,6 個女生,現在要派 3 個人去出差,要求每個部門至少出一人,那么至少有一個女生被派出的概率是多少?"

一道致命題,在已經明確補集法的情況下,GPT4 的錯誤率依然高達 50%。但是 Claude3 Opus,我測了 10 遍,準確率 90%,就很爽。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

張三是一名推銷員,她在綠房子賣掉了三分之一的吸塵器,在紅房子多賣了 2 臺,在橙房子賣掉了剩下吸塵器的一半。如果張三還剩下 5 臺吸塵器,她一開始有多少臺吸塵器?

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

當然,還可以直接上物理題,直接傳圖就行。全對。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

化學,也行。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

在中文語境下的一些邏輯怪圈,也沒問題。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

整體看,Claude 在邏輯和推理上的進化巨大,初中的理科題基本都能橫著走,不過高中題基本都還是全線陣亡狀態。

而一些弱智吧的問題或者語義邏輯,都難不倒 Claude3 了。

二、跟 GPT4V 打平的多模態

GPT4V 也出來很久很久了,多模態,絕對是讓人永遠離不開的功能之一。

這次 Claude3,終于把他的視覺能力給補齊了,可以直接扔圖進去了。

在玩了幾個小時后,我整體的評價是,跟 GPT4V 大致打平手。

官方的數據,也大概是這樣的傾向。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

除了在科學示意圖(Science diagrams)這個領域超的稍微多一些之外,其他基本沒有差別。

放個科學示意圖的 Case,還是很強的。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

一個網站的截圖直接還原網頁的源代碼~

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

猜個地名,那自然更是小 Case。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

再根據作品猜個藝術家?OK。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

當然,也可以整一些花活。比如這個照片。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

Claude3 Opus 給出了標準的答案,完美。

整體上,跟 GPT4V 大差不差,對中文的支持也不錯。算是彌補了一直以來 Claude 的短板。

三、200K 長文本優化

之前我曾寫過一篇文章,怒噴過 Claude2.1....

花 7000 塊實測 Claude2.1 - 200K Token 的超大杯效果究竟怎么樣?

因為他的上下文準確性實在是太差太差太差了...

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

就直接紅成半邊天,紅成這個鬼樣子。

這一次,他們終于有了大幅度的改善。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

終于達到了,99%。嗯,還是沒有 100%。

我直接甩了我的文章 PDF 數據集上去,測一下我直接寫 Kimi 的時候,大海撈針里面那個很經典的 case:

“你寫妙鴨相機那篇文章時,用了一個人的照片作為案例,那個人是誰?”

在過了很久很久以后,終于給我回復了。。。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

內容倒是對的,沒有問題。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

但是這個速度,實在是太慢了,起碼等了 1 分鐘左右。

但是有比沒有好。

再放一個文檔內跨度比較大的查詢的 case。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

整體精準度和語義理解都很不錯。

基于超長文本的對話、總結、查詢的能力,也終于在 Claude3 中補齊了。只能說補齊,畢竟,這玩意 Kimi 都做了快半年了,Claude3 現在也就剛剛達到 Kimi 在長文本這塊的水平。。。

但是綜合來看,Claude3 Opus,依舊是目前最為水桶的大模型。

或者可以說,就是當前的,No.1。

寫在最后

當然這次更新,Claude3 還有一些別的特點。

比如減少不必要的拒絕,比如準確性更高等等,但是我覺得就不展開說了。

最后再貼三張圖給大家看一下 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 的區別。

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

三張圖一眼就能看明白,牛逼的更貴,便宜的更快。

總結一下。

Claude3 這次更新后,有獨一檔的推理能力、跟 GPT4V 打平的多模態、還有 200K 長文本優化。

可以當之無愧的說,就是市面上目前最強的大模型。

不過按照 OpenAI 和奧特曼的尿性。

他們應該忍不了這口氣。

所以評論區里,網友說出了我的心聲:

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

奧特曼趕緊的,發個 GPT5 狙擊 Claude3 啊,別慫。

打起來。

那樣我們才能最快速度,迎接加速而來的。

未來。

歡迎關注作者的微信公眾號:數字生命卡茲克

比 ChatGPT4 還強?深度測評最新AI神器 Claude3

收藏 14
點贊 30

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。