人手一個 Midjourney!Stability AI 開源旗下生圖模型,做圖圈炸了

華爾街見聞
2023.05.18 06:03
portai
I'm PortAI, I can summarize articles.

Stability AI 在用 AI 造福所有人的路上越走越遠。

StabilityAI 又雙叒叕放大招了!

就在昨天,StabilityAI 在官網上重磅宣佈——旗下的文生圖應用 DreamStudio 開源了!開源產品更名為 StableStudio。

據官網介紹,此次開源意味着 StabilityAI 的圖片生成產品線邁入一個全新的篇章,也展現出了 StabilityAI 推廣開源模型的決心。

AI 的盡頭是開源

自從 Stable Diffusion 發佈以來,DreamStudio 就是 StabilityAI 最主要的應用,用來展示最新的模型和功能。

最近,DreamStudio 來了一波升級,改用了 StabilityAI 最新的圖像生成模型——SDXL。

原本該應用的功能就是一個平台,讓廣大用户能用上生成圖片的 AI 模型。到目前為止,用户得生成了少説成百上千的圖片。

而此次發佈的重磅炸彈,是因為 StabilityAI 相信,最好的推廣生圖模型的方式,就是開源,發展社羣,而非閉關鎖國。

誠如 LeCun 所説,AI 發展的盡頭是開源。

StabilityAI 表示,他們的目標是和更多開發者社區建立合作關係,打造一個完全由用户控制的生成性 AI 的界面。

雖説 DreamStudio 將繼續負責 StableStudio 的運營,但 StabilityAI 的目標是把 StableStudio 打造成一個獨立的項目。

而且,StabilityAI 的野心可不小,誓要把 StableStudio 搞的比任何一個獨立公司都要牛。

追溯起 DreamStudio 的起源,它最初是 Disco Diffusion 下的一個動畫工作室。隨着去年夏天 Stable Diffusion 的發佈,Disco Diffusion 的重點也從動畫轉到了圖像生成。

StabilityAI 的目標就是為生成性 AI 創造一個強大的多模式體驗,該公司一直在為這個目標而努力。

因此,StabilityAI 在最新的 StableStudio 項目中公佈了即將推出的聊天界面——

人手一個 Midjourney?

在今年 3 月,DreamStudio 也是發佈了最新的一次更新。

新的穩定擴散微調(Stable unCLIP 2.1, Hugging Face),分辨率為 768x768,基於 SD2.1-768。

這個模型允許圖像變化,以及混合操作。

由於其模塊化,可以與其他模型,如 KARLO,進行結合。這裏面有兩個變體:Stable unCLIP-L 和 Stable unCLIP-H,它們分別以 CLIP ViT-L 和 ViT-H 圖像嵌入為條件。

再來看看幾組 StableStudio 生成的圖片。

開源——StabilityAI 的優良傳統

而開源,一向是 Stable 家族的傳統。

就在上個月,Stability AI 宣佈推出他們的第一個大語言模型——StableLM。

劃重點:它也是開源的,在 GitHub 上已經可用。模型從 3B 和 7B 參數開始,隨後會有 15B 到 65B 的版本。

並且, Stability AI 還發布了用於研究的 RLHF 微調模型。

項目地址:https://github.com/Stability-AI/StableLM/

Stability AI 官方聲稱:Alpha 版本的 StableLM 有 30 億和 70 億個參數,之後還有 150 億到 650 億參數的後續版本。

StabilityAI 還豪橫地表示,開發者隨便用。只要遵守相關條款,不管是檢查、應用還是改編基礎模型,想怎麼來怎麼來。

StableLM 功能強大,不光可以生成文本和代碼,還能給下游應用提供技術基礎。它是一個很好的範例,展示了小型、高效的模型通過適當訓練就可以有足夠高的性能。

早年間,Stability AI 和非營利性研究中心 Eleuther AI 一起開發過早期的語言模型,可以説,Stability AI 積澱很深。

像什麼 GPT-J、GPT-NeoX 和 Pythia,這都是兩家公司合作訓練的產物,在 The Pile 開源數據集上訓練完成。而後續的更多開源模型,比如 Cerebras-GPT 和 Dolly-2 都是上面三兄弟的後續產品。

説回 StableLM,它是在建立在 The Pile 基礎上的新數據集上訓練的,該數據集包含 1.5 萬億個 token,大約是 The Pile 的 3 倍。模型的上下文長度為 4096 個 token。在即將發佈的技術報告中,Stability AI 會公佈模型的規模和訓練設置。

作為概念驗證,團隊用斯坦福大學的 Alpaca 對模型進行了微調,並使用了最近的五個對話代理的數據集的組合:斯坦福大學的 Alpaca、Nomic-AI 的 gpt4all、RyokoAI 的 ShareGPT52K 數據集、Databricks labs 的 Dolly 和 Anthropic 的 HH。這些模型將作為 StableLM-Tuned-Alpha 發佈。

當然,這些微調過的模型僅僅用於研究,屬於非商業性質。後續,Stability AI 還將會公佈新數據集的更多細節。

其中,新數據集十分豐富,這也是為什麼 StableLM 的性能很棒。雖説參數規模目前來看還是有點小(和 GPT-3 1750 億個參數相比是這樣的)。

Stability AI 表示,語言模型是數字時代的核心,我們希望每個人都能在語言模型中有發言權。而 StableLM 的透明性。可訪問性、支持性等特點也是踐行了這個觀念。

Stability AI 表示,目前這些模型已經在 GitHub 公佈,未來還會有完整的技術報告問世。Stability AI 期待和廣泛的開發者和研究人員進行合作。同時,他們還表示將啓動眾包 RLHF 計劃,開放助手合作,為 AI 助手創建一個開源的數據集。

隨着 StableLM 的推出,可以説 Stability AI 在用 AI 造福所有人的路上越走越遠了。

畢竟,開源一向是他們的優良傳統。

在 2022 年,Stability AI 提供了多種方式讓大家使用 Stable Diffusion,包括公開 demo、軟件測試版和模型的完整下載,開發人員可以隨意使用模型,進行各種集成。

作為一個革命性的圖像模型,Stable Diffusion 代表着一個透明、開放和可擴展的專有 AI 替代方案。顯然,Stable Diffusion 讓大家看到了開源的各種好處,當然也會有一些無法避免的壞處,但這無疑是一個有意義的歷史節點。

參考資料:

https://stability.ai/blog/stablestudio-open-source-community-driven-future-dreamstudio-release

本文來源:新智元,原文標題:《人手一個 Midjourney!Stability AI 開源旗下生圖模型,做圖圈炸了》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。