
商湯加入 AI 大戰!首次實時演示大模型體系 代碼編寫效率提升 62%

商湯科技宣佈推出大模型體系 “商湯日日新大模型”,內含自然語言生成、文生圖、感知模型標註以及模型研發功能。同時,商湯還發布商湯自研中文語言大模型應用平台 “商量 SenseChat”。該模型可實現多輪對話、邏輯推理、語言糾錯、內容創作、情感分析等多種功能。商湯科技同時也發佈了超 10 億參數自研文生圖生成模型 “秒畫”,支持多種風格生成。據商湯科技介紹,商湯人工智能計算中心算力可支持 20 個千億參數超大模型同時訓練。商湯科技以通用人工智能作為核心發展戰略,將持續擁抱新技術,積極發展人才和技術。
GPT 的誕生引燃了沉寂許久的人工智能新浪潮,“顛覆性變革” 正在發生,是否擁有超大模型與高算力開始漸漸成為衡量一家人工智能企業能力的主要標準。
4 月 10 日,人工智能軟件公司商湯科技董事長兼 CEO 徐立,在技術交流日上宣佈,將推出大模型體系 “商湯日日新大模型”,包括自然語言生成、文生圖、感知模型標註以及模型研發功能。
“日日新” 取自《禮記·大學》:“湯之盤銘曰:苟日新,日日新,又日新。”

商湯還宣佈推出商湯自研中文語言大模型應用平台 “商量 SenseChat”。
徐立介紹稱,商量是一個 1800 億參數的中文大語言模型,可實現多輪對話、邏輯推理、語言糾錯、內容創作、情感分析等,並在現場演示了其作廣告語、續寫兒童故事、編程等功能,下圖為商湯大模型實時演示:


徐立表示,內部實測代碼編寫效率提升 62%,HumanEval 測試集一次通過率 40.2%。下一代軟件開發範式是 AI for AI,代碼=80%AI 生成 +20% 人工。

此外,商湯還介紹了超 10 億參數自研文生圖生成模型 “秒畫”,支持二次元等多種生成風格。單卡 A100 支持,2 秒生成 1 張 512K 分辨率的圖片。用户可基於單卡 A100 自訓練。基於平台發佈的模型,可設置 to B 服務 API(應用程序編程接口),結合商湯大算力對外提供服務。

同時,徐立指出,人工智能的能力由大模型參數量乘以訓練數據量決定。商湯人工智能計算中心,算力可支持 20 個千億參數超大模型同時訓練。
徐立此前曾表示,商湯將通用人工智能(AGI)作為核心發展戰略,以期在未來幾年內實現重大突破:
人工智能是一個前景廣闊的賽道,商湯將一如既往地堅定投入在邁向通用人工智能的前沿研發與商業化進程中。
商湯 SenseCore 龐大的算力輸出能力
徐立在交流日介紹稱,人工智能的能力由大模型參數量乘以訓練數據量決定。商湯人工智能計算中心算力達 5000+p,當前可支持 20 個千億參數超大模型同時訓練。
根據商湯 3 月 28 日公佈的財報顯示,服務於大模型訓練的商湯 SenseCore AI 大裝置,目前已支持 8 家客户進行大模型訓練,總共提供了 7000 多張 GPU 卡。

SenseCore 已支持了超過 10 個大模型訓練項目,包括語言大模型、文生圖模型、視覺大模型、多模態模型等自研模型和客户自定義模型。
從算力能力上看,年內,商湯 SenseCore AI 大裝置在持續進行擴建,共計完成了 2.7 萬塊 GPU 的部署並實現了 5.0 exaFLOPS 的算力輸出能力。
目前該裝置可最多支持 20 個千億參數量大模型(以千卡並行)同時訓練,最高可支持萬億參數超大模型的訓練。
商湯科技聯合創始人兼首席科學家王曉剛教授在此前接受媒體採訪時表示,商湯多年人才和技術積累使其具有與 OpenAI 相比非常類似的優勢:
商湯有非常多的研發人員能深入到一線,用模型去解決實際問題,有很好的積累。‘好的原材料’ 就是要深入到各個行業裏積累非常多的 know-how。美國公司 OpenAI 能夠把 ChatGPT 做出來,背後也有多年積累,從小模型到大模型的研發,中間積累了非常多的 know-how。”
王曉剛教授指出,深度學習一下子顛覆了所有傳統,現在的關鍵是 “擁抱全新研究範式” 和 “轉變觀念”:
顛覆會不斷出現,且以非常快的速度出現。現在重新有了一個機會。這對於整個行業發展非常好。
十年前,商湯還沒有誕生,我們創始團隊在當時做的決定就是-All in deep learning。我們之前在傳統視覺技術裏也有較長積累,但是,當新技術來了,我們就果斷地去擁抱新技術。今天也一樣。”
