av岛国在线,欧美午夜精品一区二区三区电影 ,宅男在线观看免费高清网站

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

Claude3，正式上線。

這個由 OpenAI 分裂出去的兄弟公司 Anthropic，在悄然無息之間，就這么默默地把 Claude3 發了。

沒有所謂的發布會，沒有什么華麗的輿論，就僅僅在 X 上發了個帖子。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

我發現現在的這些 AI 公司真挺有意思，都把 X 當成發布主陣地了。。。

字很少，但是事挺大。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

一口氣發了 3 個模型，Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

這個名字就取的...很有故事。

Opus 大概意思就是史詩級樂章，牛逼上天那種。

Sonnet 是十四行詩。

Haiku 是俳句，日本的那種三行短詩。

所以可以簡單的理解成：Opus（超大杯）、Sonnet（大杯）、Haiku（中杯）

這三個的區別沒什么特別可說的，文章最后放三張截圖就能看明白。

主要還是他們附加的這么一張圖。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

Claude3 的 Opus 模型，全面超越 GPT4。

而且還是在幾個任務 0-shot 的情況下。

我用圖里面的舉下例子，比如 MGSM，多語言數學推理這個測試集。

Claude3 Opus 達到 90.7%的準確率，用的是 0-shot，GPT4 是 8-shot，達到了 74.5%。

0-shot 意味著大模型沒有在 Prompt 里給任何示例，就直接被要求完成任務。而 8-shot 則是在干活前，給了 8 個示例。

你這就能看出來區別了。。。一個沒給示例直接上，一個給了 8 個示例，給了 8 個示例的 GPT-4 反而還打不過 Claude3。

在復雜的推理任務上，Claude3 可以說是全面吊打 GPT-4。

而在另幾個比如 MMLU、GSM8K 這種語言類知識類的測試集上，跟 GPT4 基本上差不太多，所以整體核心上，還是推理能力的巨幅提升。

反正，這個 Claude3 Opus 還是很吸引我的。。。

但是吧，Claude 這個狗東西，果然跟 OpenAI 學的一套一套的，免費的只能用 Sonnet，Opus 只有氪了 20 刀的會員才能用。。。。

呸。。。狗男人。。。

在我 TM 的炸了 8 個號之后。。。。。。。。。。。。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

所以那咱咋辦呢，那只能送他 20 刀。。。

在瘋狂的跑了幾個小時之后。。。也測了很多在 2023 年 8 月后的 case 之后。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

我給 Claude 總結 3 個特點，分別是：

獨一檔的推理能力、跟 GPT4V 打平的多模態、200K 長文本優化。

一、獨一檔的推理能力

其實從上文就能看到，Claude3 進化最大的，就是推理，就是邏輯。

不過單看參數，肯定感受不到，那就放幾個我覺得很有代表性的例子吧。

解釋補集法的概念，并用補集法計算這道概率題："一家公司有兩個部門，A 部門 3 個男生，2 個女生，B 部門 4 個男生，6 個女生，現在要派 3 個人去出差，要求每個部門至少出一人，那么至少有一個女生被派出的概率是多少？"

一道致命題，在已經明確補集法的情況下，GPT4 的錯誤率依然高達 50%。但是 Claude3 Opus，我測了 10 遍，準確率 90%，就很爽。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

張三是一名推銷員，她在綠房子賣掉了三分之一的吸塵器，在紅房子多賣了 2 臺，在橙房子賣掉了剩下吸塵器的一半。如果張三還剩下 5 臺吸塵器，她一開始有多少臺吸塵器？

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

當然，還可以直接上物理題，直接傳圖就行。全對。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

化學，也行。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

在中文語境下的一些邏輯怪圈，也沒問題。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

整體看，Claude 在邏輯和推理上的進化巨大，初中的理科題基本都能橫著走，不過高中題基本都還是全線陣亡狀態。

而一些弱智吧的問題或者語義邏輯，都難不倒 Claude3 了。

二、跟 GPT4V 打平的多模態

GPT4V 也出來很久很久了，多模態，絕對是讓人永遠離不開的功能之一。

這次 Claude3，終于把他的視覺能力給補齊了，可以直接扔圖進去了。

在玩了幾個小時后，我整體的評價是，跟 GPT4V 大致打平手。

官方的數據，也大概是這樣的傾向。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

除了在科學示意圖(Science diagrams)這個領域超的稍微多一些之外，其他基本沒有差別。

放個科學示意圖的 Case，還是很強的。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

一個網站的截圖直接還原網頁的源代碼~

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

猜個地名，那自然更是小 Case。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

再根據作品猜個藝術家？OK。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

當然，也可以整一些花活。比如這個照片。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

Claude3 Opus 給出了標準的答案，完美。

整體上，跟 GPT4V 大差不差，對中文的支持也不錯。算是彌補了一直以來 Claude 的短板。

三、200K 長文本優化

之前我曾寫過一篇文章，怒噴過 Claude2.1....

花 7000 塊實測 Claude2.1 - 200K Token 的超大杯效果究竟怎么樣？

因為他的上下文準確性實在是太差太差太差了...

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

就直接紅成半邊天，紅成這個鬼樣子。

這一次，他們終于有了大幅度的改善。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

終于達到了，99%。嗯，還是沒有 100%。

我直接甩了我的文章 PDF 數據集上去，測一下我直接寫 Kimi 的時候，大海撈針里面那個很經典的 case：

“你寫妙鴨相機那篇文章時，用了一個人的照片作為案例，那個人是誰？”

在過了很久很久以后，終于給我回復了。。。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

內容倒是對的，沒有問題。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

但是這個速度，實在是太慢了，起碼等了 1 分鐘左右。

但是有比沒有好。

再放一個文檔內跨度比較大的查詢的 case。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

整體精準度和語義理解都很不錯。

基于超長文本的對話、總結、查詢的能力，也終于在 Claude3 中補齊了。只能說補齊，畢竟，這玩意 Kimi 都做了快半年了，Claude3 現在也就剛剛達到 Kimi 在長文本這塊的水平。。。

但是綜合來看，Claude3 Opus，依舊是目前最為水桶的大模型。

或者可以說，就是當前的，No.1。

寫在最后

當然這次更新，Claude3 還有一些別的特點。

比如減少不必要的拒絕，比如準確性更高等等，但是我覺得就不展開說了。

最后再貼三張圖給大家看一下 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 的區別。

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

三張圖一眼就能看明白，牛逼的更貴，便宜的更快。

總結一下。

Claude3 這次更新后，有獨一檔的推理能力、跟 GPT4V 打平的多模態、還有 200K 長文本優化。

可以當之無愧的說，就是市面上目前最強的大模型。

不過按照 OpenAI 和奧特曼的尿性。

他們應該忍不了這口氣。

所以評論區里，網友說出了我的心聲：

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

奧特曼趕緊的，發個 GPT5 狙擊 Claude3 啊，別慫。

打起來。

那樣我們才能最快速度，迎接加速而來的。

未來。

歡迎關注作者的微信公眾號：數字生命卡茲克

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

數字生命卡茲克

文章 84 人氣 222.5w

AI自媒體

+關注作者

點贊 30

復制本文鏈接文章為作者獨立觀點不代表優設網立場，未經允許不得轉載。

繼續閱讀本文相關話題

AIGC

學AI

AI導航

菜單 優設網uisdc.com 優設網 - 學AI設計上優設

您還未登錄

登錄后即可體驗更多功能

比 ChatGPT4 還強？深度測評最新AI神器 Claude3

2024/03/17 推薦： 數字生命卡茲克閱讀 3.0w 評論有獎 閱讀本文需 8 分鐘

本文收錄于專題

ChatGPT 使用指南

共收錄26篇

設計師必看！6種ChatGPT實用使用指南

實用技巧

高效ChatGPT交流指南：GPTs搭建的全面教程

ChatGPT進階使用技巧！如何設計定制化的對話模型？

實用技巧

一、獨一檔的推理能力

二、跟 GPT4V 打平的多模態

三、200K 長文本優化

寫在最后

數字生命卡茲克

文章 84 人氣 222.5w

繼續閱讀本文相關話題

222.5w人氣 84文章

本文3套知識9圖

黨建背景不求人！3步AI生成合規高級紅，附詳細提示詞！

3分鐘出大片！5步搞定作品集封面小字渲染

AIGC空間設計5步走！草圖秒變實景，小白也能搞定節奏感！

文章目錄

文章目錄

你即將學會 B端框架 的知識

用一個真實案例，演示B端設計框架的價值

2.5w 人閱讀

上一篇

你即將學會 產品設計 的知識

兩萬字干貨！如何驅動產品的增長設計？

2.7w 人閱讀

下一篇

發評論！每天贏獎品

點擊 登錄 后，在評論區留言，系統會隨機派送獎品

2012年成立至今，是國內備受歡迎的設計師平臺，提供獎品贊助 聯系我們

MJ+SD智能設計

已累計誕生 771 位幸運星

發表評論 為下方 7 條評論點贊，解鎖好運彩蛋

↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓

逗砂

ASAK設計

彩云Sky

ASAK設計

夏花生

優設推薦官精選熱門話題

優秀網頁設計

文章 588

字體設計

文章 558

配色

文章 407

人工智能

文章 284

評論

收藏

分享

AI趨勢

入站必看

設計入門

進階提升

熱門資源

最新AI工具

300+實用AI工具全收錄

Midjourney

會上癮的AI繪畫工具

AI智能繪畫

讓AI助你一臂之力

Blender

稱心如意的3D設計法寶

Figma

令設計師愛不釋手

HMI設計指南

車載設計教科書

直播間設計

生意都在直播間啦

Stable Diffusion

最強開源AI繪畫工具

菜單優設網 - 學AI設計上優設

2024/03/17 推薦：數字生命卡茲克閱讀 3.0w 評論有獎閱讀本文需 8 分鐘

你即將學會 B端框架的知識

你即將學會產品設計的知識

點擊登錄后，在評論區留言，系統會隨機派送獎品

2012年成立至今，是國內備受歡迎的設計師平臺，提供獎品贊助聯系我們

發表評論為下方 7 條評論點贊，解鎖好運彩蛋