
Claude3,正式上線。
這個由 OpenAI 分裂出去的兄弟公司 Anthropic,在悄然無息之間,就這么默默地把 Claude3 發了。
沒有所謂的發布會,沒有什么華麗的輿論,就僅僅在 X 上發了個帖子。

我發現現在的這些 AI 公司真挺有意思,都把 X 當成發布主陣地了。。。
字很少,但是事挺大。

一口氣發了 3 個模型,Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
這個名字就取的...很有故事。
Opus 大概意思就是史詩級樂章,牛逼上天那種。
Sonnet 是十四行詩。
Haiku 是俳句,日本的那種三行短詩。
所以可以簡單的理解成:Opus(超大杯)、Sonnet(大杯)、Haiku(中杯)
這三個的區別沒什么特別可說的,文章最后放三張截圖就能看明白。
主要還是他們附加的這么一張圖。

Claude3 的 Opus 模型,全面超越 GPT4。
而且還是在幾個任務 0-shot 的情況下。
我用圖里面的舉下例子,比如 MGSM,多語言數學推理這個測試集。
Claude3 Opus 達到 90.7%的準確率,用的是 0-shot,GPT4 是 8-shot,達到了 74.5%。
0-shot 意味著大模型沒有在 Prompt 里給任何示例,就直接被要求完成任務。而 8-shot 則是在干活前,給了 8 個示例。
你這就能看出來區別了。。。一個沒給示例直接上,一個給了 8 個示例,給了 8 個示例的 GPT-4 反而還打不過 Claude3。
在復雜的推理任務上,Claude3 可以說是全面吊打 GPT-4。
而在另幾個比如 MMLU、GSM8K 這種語言類知識類的測試集上,跟 GPT4 基本上差不太多,所以整體核心上,還是推理能力的巨幅提升。
反正,這個 Claude3 Opus 還是很吸引我的。。。
但是吧,Claude 這個狗東西,果然跟 OpenAI 學的一套一套的,免費的只能用 Sonnet,Opus 只有氪了 20 刀的會員才能用。。。。
呸。。。狗男人。。。
在我 TM 的炸了 8 個號之后。。。。。。。。。。。。


所以那咱咋辦呢,那只能送他 20 刀。。。
在瘋狂的跑了幾個小時之后。。。也測了很多在 2023 年 8 月后的 case 之后。

我給 Claude 總結 3 個特點,分別是:
獨一檔的推理能力、跟 GPT4V 打平的多模態、200K 長文本優化。
其實從上文就能看到,Claude3 進化最大的,就是推理,就是邏輯。
不過單看參數,肯定感受不到,那就放幾個我覺得很有代表性的例子吧。
解釋補集法的概念,并用補集法計算這道概率題:"一家公司有兩個部門,A 部門 3 個男生,2 個女生,B 部門 4 個男生,6 個女生,現在要派 3 個人去出差,要求每個部門至少出一人,那么至少有一個女生被派出的概率是多少?"
一道致命題,在已經明確補集法的情況下,GPT4 的錯誤率依然高達 50%。但是 Claude3 Opus,我測了 10 遍,準確率 90%,就很爽。

張三是一名推銷員,她在綠房子賣掉了三分之一的吸塵器,在紅房子多賣了 2 臺,在橙房子賣掉了剩下吸塵器的一半。如果張三還剩下 5 臺吸塵器,她一開始有多少臺吸塵器?

當然,還可以直接上物理題,直接傳圖就行。全對。

化學,也行。

在中文語境下的一些邏輯怪圈,也沒問題。

整體看,Claude 在邏輯和推理上的進化巨大,初中的理科題基本都能橫著走,不過高中題基本都還是全線陣亡狀態。
而一些弱智吧的問題或者語義邏輯,都難不倒 Claude3 了。
GPT4V 也出來很久很久了,多模態,絕對是讓人永遠離不開的功能之一。
這次 Claude3,終于把他的視覺能力給補齊了,可以直接扔圖進去了。
在玩了幾個小時后,我整體的評價是,跟 GPT4V 大致打平手。
官方的數據,也大概是這樣的傾向。

除了在科學示意圖(Science diagrams)這個領域超的稍微多一些之外,其他基本沒有差別。
放個科學示意圖的 Case,還是很強的。

一個網站的截圖直接還原網頁的源代碼~

猜個地名,那自然更是小 Case。

再根據作品猜個藝術家?OK。

當然,也可以整一些花活。比如這個照片。



Claude3 Opus 給出了標準的答案,完美。
整體上,跟 GPT4V 大差不差,對中文的支持也不錯。算是彌補了一直以來 Claude 的短板。
之前我曾寫過一篇文章,怒噴過 Claude2.1....
花 7000 塊實測 Claude2.1 - 200K Token 的超大杯效果究竟怎么樣?
因為他的上下文準確性實在是太差太差太差了...

就直接紅成半邊天,紅成這個鬼樣子。
這一次,他們終于有了大幅度的改善。

終于達到了,99%。嗯,還是沒有 100%。
我直接甩了我的文章 PDF 數據集上去,測一下我直接寫 Kimi 的時候,大海撈針里面那個很經典的 case:
“你寫妙鴨相機那篇文章時,用了一個人的照片作為案例,那個人是誰?”
在過了很久很久以后,終于給我回復了。。。

內容倒是對的,沒有問題。

但是這個速度,實在是太慢了,起碼等了 1 分鐘左右。
但是有比沒有好。
再放一個文檔內跨度比較大的查詢的 case。

整體精準度和語義理解都很不錯。
基于超長文本的對話、總結、查詢的能力,也終于在 Claude3 中補齊了。只能說補齊,畢竟,這玩意 Kimi 都做了快半年了,Claude3 現在也就剛剛達到 Kimi 在長文本這塊的水平。。。
但是綜合來看,Claude3 Opus,依舊是目前最為水桶的大模型。
或者可以說,就是當前的,No.1。
當然這次更新,Claude3 還有一些別的特點。
比如減少不必要的拒絕,比如準確性更高等等,但是我覺得就不展開說了。
最后再貼三張圖給大家看一下 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 的區別。



三張圖一眼就能看明白,牛逼的更貴,便宜的更快。
總結一下。
Claude3 這次更新后,有獨一檔的推理能力、跟 GPT4V 打平的多模態、還有 200K 長文本優化。
可以當之無愧的說,就是市面上目前最強的大模型。
不過按照 OpenAI 和奧特曼的尿性。
他們應該忍不了這口氣。
所以評論區里,網友說出了我的心聲:

奧特曼趕緊的,發個 GPT5 狙擊 Claude3 啊,別慫。
打起來。
那樣我們才能最快速度,迎接加速而來的。
未來。
歡迎關注作者的微信公眾號:數字生命卡茲克

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。




發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
MJ+SD智能設計
已累計誕生 771 位幸運星
發表評論 為下方 7 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓