
Introducing ChatGPT, the conversational and image-savvy AI! Taking "super assistant" to the next level.

ChatGPT 將開口説話,並擁有 5 種不同語音,與 Siri 等 C 端個人助理直接競爭,同時還可以根據圖片回答或給出建議。
開口説話、裝上 “眼睛”,多模態 ChatGPT 來了。
週一,OpenAI 在官網宣佈,將在未來兩週內面向 Plus 和企業用户推出 ChatGPT 的語音和圖像功能,上述功能允許用户進行語音對話或向 ChatGPT 展示圖片。
語音功能方面,ChatGPT 可以用語音來回答問題和命令,與蘋果的 Siri 等 C 端個人助理形成直接競爭。此外,ChatGPT 將有五種不同的語音供用户選擇,同時支持語音音頻生成文本、將播客語音翻譯成其他語言等功能。
圖像功能方面,用户提交圖片並詢問相關問題,ChatGPT 可以根據圖片回答或給出建議。據悉,語音功能將在 iOS 和 Android 平台推出,圖像功能將登陸所有平台。
開口説話、5 種不同語音
OpenAI 升級了用户與 ChatGPT 的交互方式,用户不僅可以通過在文本框中輸入句子,還可以通過大聲説話來提示聊天機器人。
這一功能並不陌生,類似於與谷歌助手交談,只是 OpenAI 希望,由於底層技術的改進,答案會更好。目前,大多數虛擬助手都在依靠大模型進行重建,OpenAI 只是走在了前面。
OpenAI 於今年 5 月發佈了 ChatGPT 應用程序,並已經提供了語音轉文本功能。增加語音回覆功能可以讓用户感覺在進行更人性化的對話。該公司希望這項新功能能鼓勵用户隨時隨地使用其移動應用,並與谷歌的 Assistant、蘋果的 Siri 或 亞馬遜的 Alexa 等個人助理產品形成直接的競爭。
OpenAI 正在推出一種新的文本轉語音模型,並稱它可以 “通過文本和幾秒鐘的語音樣本生成類似人類的音頻”,用户可以從五個選項中選擇 ChatGPT 的聲音,但 OpenAI 似乎認為該模型的潛力遠不止於此。例如,OpenAI 正在與 Spotify 合作,將播客翻譯成其他語言,同時保持播客的聲音。合成語音有很多有趣的用途,OpenAI 可能會成為這一行業的重要組成部分。
裝上 “眼睛”、看懂圖片
該公司還表示,付費用户和企業用户將可以使用圖片功能,圖片搜索有點像谷歌 Lens,只需拍下感興趣的照片,ChatGPT 就會找出問題所在,並做出相應的回應。
例如,用户可以上傳一張粉色太陽鏡的圖片,並要求聊天機器人推薦與之搭配的服裝,或者提交一張數學問題的圖片,並請求幫助解決。
分析指出,自從 2022 年初推出 ChatGPT 以來,OpenAI 一直在努力為其機器人增加更多功能和能力,同時避免造成新的問題出現。通過這次更新,該公司試圖在這條界線上尋找平衡點,通過有意識地限制其新模型能做什麼來實現這一目標。
但是這種方法並不是長久之計,隨着越來越多的人使用語音控制和圖像搜索,以及 ChatGPT 逐漸成為一個真正的多模態、實用的虛擬助手,要保持安全和合理的邊界會變得越來越困難。
ChatGPT 要成為 “超級助理”
這次升級無疑令 ChatGPT 距離 “超級助理” 更進了一步,同時與下游軟件的競爭也更加激烈。
此前文章指出,OpenAI 首席執行官 Sam Altman 私下告訴開發者,公司希望將 ChatGPT 打造成 “超級智能個人工作助理”,使其可以根據個人及工作需求執行多種任務,如按照用户的風格起草郵件或文件,提供相關業務的最新信息。
分析指出,微軟和 OpenAI 均能向需要構建 AI 能力的 B 端客户提供技術服務,兩者之間存在着直接的業務衝突;而從長期來看,如果 OpenAI 加速佈局面向個人及企業的軟件,ChatGPT 未來很有可能將重塑 C 端應用生態,或許兩者的 “關係破裂” 是早晚的事情。
