siemens x
人工智能

中國首個GPT-4 Turbo級別的大模型登場,6000億參數(shù),商湯「日日新5.0」發(fā)布

2025China.cn   2024年04月25日

國產(chǎn)AI大模型迎來對標全球頂尖版本時刻!

4月23日,商湯科技帶來全新升級的「日日新SenseNova 5.0」大模型,具備更強的知識、數(shù)學、推理及代碼能力,綜合性能全面對標 GPT-4 Turbo,并在主流客觀評測上達到或超越 GPT-4 Turbo。

「日日新 5.0」能力提升主要得益三個方面:

● 采用混合專家架構(MoE),激活少量參數(shù)就能完成推理。且推理時上下文窗口達到 200K 左右。

● 基于超過10TB tokens訓練、覆蓋數(shù)千億量級的邏輯型合成思維鏈數(shù)據(jù)。

● 商湯AI大裝置SenseCore算力設施與算法設計的聯(lián)合調優(yōu)。

先看看BenchMark成績:

「日日新 5.0」在大部分核心測試集指標上都對標甚至超過GPT-4 Turbo

在實際使用中,「日日新 5.0」具體表現(xiàn)怎么樣?下面,分別從自然語言能力、文生圖能力、多模態(tài)和數(shù)據(jù)分析能力幾個方面對比一下。

自然語言能力

「日日新 5.0」的自然語言能力得益于對大量中文語料的構建。

創(chuàng)意寫作、推理以及總結能力均大幅提升,相同的中文知識注入后,可以獲得更好的理解總結及問答,為教育、內容產(chǎn)業(yè)等垂直應用場景提供有力輔助。

例如,在創(chuàng)意寫作方面,「日日新 5.0」可以打破傳統(tǒng)作文的“八股式”寫法,將通用知識、新知識融會貫通,實現(xiàn)更開放式的創(chuàng)作。

以《紅樓夢》里亭子的題名來寫一篇關于文化、關于創(chuàng)新的作文:GPT-4寫作分別從學習、工作、生活維度討論傳統(tǒng)與創(chuàng)新,套路痕跡較為明顯,淺嘗輒止,難免不讓人覺得枯燥乏味;「日日新 5.0」寫作頗為生動形象,節(jié)奏不一,引經(jīng)據(jù)典。從《詩經(jīng)》《楚詞》到《漢賦》,從“兼愛非攻”到“民貴君輕”,革古鼎新,“一花獨放不是春,百花齊放春滿園”,文化交流是創(chuàng)新生生不息的源泉。從歷史宏觀到細節(jié)的生動刻畫,「日日新 5.0」想象力豐富,似一位才華橫溢的“大才子”

數(shù)學,不僅涉及到計算能力,其實也會涉及到很多對題目和問題描述的理解能力,反映的是一個更加綜合思考、構建邏輯的過程。

當前的AI大模型很容易失敗的一點是應對之前沒有提問過的數(shù)學場景,當背后缺少構造完整思維鏈時就容易出錯。問一些小眾不常見的問題實際上是驗證其背后真正構建思維鏈的能力。

「日日新 5.0」和GPT-4回答趣味推理問題:“媽媽給圓圓沖了一杯咖啡,圓圓喝半杯后,將它加滿水,然后她又喝了半杯后,再加滿水,最后全部喝完。問圓圓喝了多少咖啡,多少水?”,「日日新 5.0」回答正確

下面也是一個很簡單的邏輯題目。

「日日新 5.0」和GPT-4回答邏輯問題對比:“13個小朋友玩老鷹抓小雞,1人扮演老鷹,12個扮演小雞,已經(jīng)抓了5只小雞,還剩幾只?”。GPT-4給出答案是抓了5只還剩8只,而日日新的答案是減掉1只老鷹所以還有7只沒有被抓住。這個題目并不是一個簡單算術的問題,而是需要對中文環(huán)境有充分理解,顯然「日日新 5.0」表現(xiàn)更好

文生圖能力

「日日新 5.0」的文生圖能力也有較大提升,下面對比了商湯「日日新•秒畫」和目前行業(yè)中幾個最好的模型,包括:Midjourney、Stable Diffution 3、GPT-4V。

人像是評估文生圖能力的關鍵場景之一,「日日新 5.0」在人物生成上有非常大的提升。秒畫生成的人像可以看出非常好皮膚的紋理,而其他幾個大模型在皮膚上都做了磨皮

這個對比體現(xiàn)另外一個難點,即怎樣把不同字段的理解合成在一起。秒畫給出了一個非常未來感的建筑,且對建筑下的倒影、波浪都表現(xiàn)得非常具有美感,實現(xiàn)了比較完整的指令跟隨且生成效果好。而其他幾個大模型會發(fā)現(xiàn)對于文字嵌入到圖像中,無論對文字的理解還是放置位置,都有一定缺失

多模態(tài)和數(shù)據(jù)分析能力

本次「日日新5.0」另一大核心指標就是多模態(tài)能力,商湯多模態(tài)大模型的圖文感知能力達到全球領先水平,在權威綜合基準測試MMBench中綜合得分排名首位,在多個知名多模態(tài)榜單MathVista, AI2D, ChartQA, TextVQA, DocVQA, MMMU 取得領先成績。

「日日新5.0」在應用產(chǎn)品層面也實現(xiàn)了更卓越的多模態(tài)能力,支持高清長圖的解析和理解以及文生圖交互式生成,還可以實現(xiàn)復雜的跨文檔知識抽取及總結問答展示,還具備豐富的多模態(tài)交互能力,下面看幾個具體例子。

首先是一個很常見的例子,針對信息長圖做核心內容的提煉和分析。有時長圖尺寸很大,很多多模態(tài)大模型支持不了很大的圖像分辨率,而「日日新5.0」提供了非常大的分辨率接口。

大家有時會把打車軟件截圖發(fā)給等待的朋友,這里面有司機信息、車的信息、車牌信息、時間信息等等一系列文字和圖片信息,信息密度非常高。對于大模型的信息提取分析很有挑戰(zhàn)。

「日日新 5.0」展現(xiàn)出了對于中文理解的優(yōu)勢,特別是對文本的分析和對場景的理解上非常出色,識別出來有手機信號中國移動和中國聯(lián)通雙卡雙待,GPT-4沒有識別出來的。包括對車牌、司機姓名等細節(jié)內容的提取,GPT-4的識別也有錯誤。日日新 5.0」對這類多模態(tài)信息的獲取更加準確

最后,再看看「日日新 5.0」對應的數(shù)理能力。

上周,中國首位F1車手周冠宇完成了他在F1中國大獎賽的比賽。用大模型統(tǒng)計下周冠宇和F1賽事的情況。

One More thing

基于商湯「日日新 5.0」的智能編程助手代碼小浣熊Raccoon發(fā)福利了,詳情請戳下面海報:

(來源:商湯科技)

標簽:商湯科技 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質領航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿易展覽會,本屆展覽會... [更多]