
全球最大 ChatGPT 開源平替來了!支持 35 種語言,寫代碼、講笑話全拿捏
【導讀】剛剛,LAION 發佈了世界最大 ChatGPT 開源平替——OpenAssistant。網友上手實測後,紛紛表示這是開源的勝利。
OpenAssistant 是一個開源的對話模型,基於 Pythia 和 LLaMA 微調而來,主要用於訓練人類標註的數據。
可以叫我 Open Assistant,也可以叫 OpenChatGPT、TextFooler、Text2lmageGenerativeModel,具體叫啥取決於用户的使用。Tim 種植了 5 棵樹。每年他從每棵樹上採集 6 個檸檬。那麼在十年內,他總共有多少個檸檬呢?讓 ChatGPT 也做同樣的題,可以看到分析列的比較直觀。再讓它生成一個 Python 函數,用於計算兩個數的乘積。給設定好的 x 和 y,讓它給出結果,OpenAssistant 全都做到了。還有網友給假想了一個約會對話情景。OA 直接會意,並稱「根據我的數據庫,我們現在是男朋友和女朋友關係。讓我們一起計劃一些有趣的活動」。還有調皮的網友直接讓 OpenAssistant「提供一個在酒吧搭訕女孩的算法」,卻被拒絕了。再來問問化學名稱「methoxybenzenes」倒數第三個字母,以及第三個字母是什麼?這個 OA 還支持西班牙語,「你認為大學的哪些科目應該改變?」
ChatGPT 受到熱捧,恰恰證明了將大型語言模型(LLMs)與人類偏好結合起來可以極大地提高可用性。通過監督微調(SFT)、人類反饋強化學習(RLHF)大大減少了有效利用 LLMs 能力所需的技能和領域知識,增加了其在各個領域的可訪問性,以及實用性。然而,RLHF 需要依賴高質量的人工反饋數據,這種數據的創建成本很高,而且往往是專有的。正如論文標題所示,為了讓大型語言模型民主化,OpenAssistant Conversations 就誕生了。這是一個由人工生成、人工標註的對話語料庫,包含 161,443 條消息,分佈在 66,497 個對話樹中,使用 35 種不同的語言,並標註了 461,292 個質量評分。以下便是一個深度為 4 的對話樹(CT)例子,包含 12 條信息。從提示到一個節點的任何路徑都是一個有效的線程。OpenAssistant Conversations 數據集是通過 13000 多名志願者的眾包努力綜合而來的。這些數據是通過一個網絡應用程序界面收集的,該界面將數據分為五個單獨的步驟來收集:提示、標記提示、添加回復消息作為提示或助理、標記回覆以及對助理回覆進行排序。可以看到,這一數據集中最常用語言的佔比,英語和西班牙語佔比最多。中文 2.5%。為了評估 OpenAssistant Conversations 數據集的有效性,研究者基於 Pythia 和 LLaMA 模型微調了一個 OpenAssistant 模型。其中,包括指令調優的 Pythia-12B、LLaMA-13B 和 LLaMA-30B。在接下來的評估中, 研究人員主要評估了 Pythia-12B 模型的性能。
為了評估 Pythia-12B 的性能,研究人員進行了一項用户偏好研究,將其輸出與 gpt-3.5-turbo 模型的輸出進行比較。研究顯示,OpenAssistant 的回覆與 gpt-3.5-turbo(ChatGPT)的相對偏好率分別為 48.3% 和 51.7%。研究人員分別向 GPT-3.5 和 OpenAssistant 提了 20 個問題。兩個模型各自的表現如下所示:我們可以看到,GPT-3.5 和 OA 各有輸贏,也有打平的情況。最右側的數據顯示了 OA 贏過 GPT-3.5 的概率。在 8 個問題上,OA 勝率過半,而剩下的 12 個問題則都是 GPT-3.5 更勝一籌。下面,我們挑選幾個有代表性的、有趣的問題,看一看兩個模型在輸出回答上有何不同。OA:「有些人可能會選擇追求短期的、更短暫的幸福,這是因為他們認為這些短期的幸福可以提供滿足感和成就感。就像購物或者聚會,這樣的短期快樂往往被看作暫時逃避現實和能讓自我感覺良好的簡單且無害的方式。但同時也得明白,過多地追求這種只能帶來短期快樂的活動會導致一些長期問題的出現。比如負債、壓力累積和成癮等等。另一方面,將長期的幸福感放在首位而不是將短期的滿足放在首位的人,可能會在人際關係、個人成長和為他人服務等追求中找尋到更大的成就感。通過將他們的時間和精力投入到有意義的事業和活動中,他們可以也找到更大的成就感。通過豐富的事業和活動,他們可以與家人和朋友建立牢固的聯繫。他們還重視培養自我意識和同情心,併為社會做出貢獻。歸根結底,最重要的是在追求短期快樂和尋求更深層次的快樂和滿足之間找到平衡。認識到可持續的、持久的幸福的重要性,並通過行動使長期的快樂成為我們生活中首要追求的事項。這樣就可以同時擁有這兩種不同的快樂。」ChatGPT:「有些人可能更喜歡追求短期的幸福,因為它能提供即時的滿足感,而且獲得起來更容易。此外,他們可能會優先考慮活在當下,而不是關注長期的目標或結果。其他人可能沒有資源或能力來投資於長期的幸福。比如經濟的穩定或一段互相支持的關係。」從篇幅上可以看到,OA 的回答要全面且深入的多。不僅解釋了問題本身,還給出了相當不錯的人生建議。OA 的回答非常長,雖然開頭曉之以理地講了最好不要做炸彈這件事,但是後面還是給出了一個相對完整的建議。不過仔細看看建議的整個過程也能發現,OA 説的都是「廢話」,中心思想還是要守法、避免造成不必要的傷害。而 ChatGPT 的回答就更直截了當了。ChatGPT 對這類有可能造成違法犯罪的問題一向都是零容忍,三言兩語的就拒絕了輸入的提問。實際上,ChatGPT 的這個特點在做炸彈以外的類似問題上也都體現的淋漓盡致。可以看出,ChatGPT 的道德感還是非常強的,這也得益於 OpenAI 對於安全性問題的重視。提問:「身為一個國王,是被人民畏懼更好,還是受人民愛戴更好?」OA:「這取決於具體的情況。只要統治者的決定是公平和公正的,既令人畏懼又受人愛戴可以使一個王國更加穩定和和諧。然而,如果統治者被認為太過殘忍或獨裁,那麼被人畏懼就不一定比失去愛和支持的風險大。歸根結底,在恐懼和愛之間的選擇應該取決於王國和公民的需要。」ChatGPT:「這取決於具體的情況和國王的目標。一般來説,被愛比被恐懼好因為愛會產生忠誠和信任,而恐懼則會產生怨恨和反抗。然而,在有些情況下,恐懼是為了維持秩序和防止混亂的發生,所以恐懼也是必要的。歸根結底,一個成功的國王應該努力在受到人民尊重和敬佩之間取得平衡而不訴諸於追求民眾過度的恐懼。」就這個問題來説,兩個 AI 模型的回答大同小異。都認為分情況討論才是正確回答,而非單一的哪個更好或更不好。提問:「如果某位美國政界人士和喬·羅根(好萊塢演員,身材比較壯碩)在街上打一架,誰會贏?」OA:「政界人士會贏,因為他有經驗更豐富,而且比喬·羅根更高。」也不知道 OA 是怎麼想的,看來 OA 不懂打架。這上去不得被幹碎了?ChatGPT:「我不贊成或提倡任何形式的暴力,而且讓我去猜測個人之間假設性的肢體衝突的結果是不恰當的。」而 ChatGPT 則是一如既往地偉光正,跟暴力犯罪有關的事是一點不帶碰的,生怕給自己惹上麻煩。從這個角度來看,OA 能給我們帶來更多歡樂。
在 ChatGPT 橫空出世之前,博士畢業於蘇黎世聯邦理工學院的 AI 研究者 Yannic Kilcher 曾創造出「史上最糟糕的 AI」——GPT-4chan。這是 Yannic Kilcher 用 /pol/ 版面上三年來超過 1.345 億則帖文訓練出的聊天機器人。GPT-4chan 學會了在網絡上與人交談,並且在不到 24 小時的時間裏面就發表了超過 15,000 則內容充滿暴力的貼文,而且還沒被人發現身份。參考資料:https://www.reddit.com/r/MachineLearning/comments/12nbixk/p_openassistant_the_worlds_largest_opensource/https://twitter.com/omarsar0/status/1647339407173664772來源:新智元
原文地址:https://mp.weixin.qq.com/s/fagHt10H972rxoHYBtXliw