試過 GPT-4V 後，微軟寫了個 166 頁的測評報告，業內人士：高級用户必讀

這篇由微軟撰寫的報告，深入研究了 GPT-4V 的功能，任何想要探索 GPT-4V 潛力的人，都值得一讀。

一週之前，ChatGPT 迎來重大更新，不管是 GPT-4 還是 GPT-3.5 模型，都可以基於圖像進行分析和對話。與之對應的，多模態版 GPT-4V 模型相關文檔也一併放出。當時 OpenAI 放出的文檔只有 18 頁，很多內容都無從得知，對於想要更深入瞭解 GPT-4V 應用的人來説，難度還是相當大的。

短短几天時間，當大家還在死磕 OpenAI 放出的 18 頁文檔時，微軟就公佈了一份長達 166 頁的報告，定性地探討了 GPT-4V 的功能和使用情況。

報告地址：https://arxiv.org/pdf/2309.17421.pdf

MedARC（醫療人工智能研究中心）聯合創始人兼 CEO Tanishq Mathew Abraham 表示，「這篇報告將是 GPT-4V 高級用户的必讀之作。」

該報告共分為 11 個章節，重點是對最新模型 GPT-4V(ision) 進行分析，以加深大眾對 LMM（大型多模態模型）的理解。文章用很大篇幅介紹了 GPT-4V 可以執行的任務，包括用測試樣本來探索 GPT-4V 的質量和通用性，現階段 GPT-4V 能夠支持的輸入和工作模式，以及提示模型的有效方法。

在探索 GPT-4V 的過程中，該研究還精心策劃組織了涵蓋各個領域和任務的一系列定性樣本。對這些樣本的觀察表明，GPT-4V 在處理任意交錯的多模態輸入方面具有前所未有的能力，並且其功能的通用性使 GPT-4V 成為強大的多模態通用系統。

此外，GPT-4V 對圖像獨特的理解能力可以催生新的人機交互方法，例如視覺參考提示（visual referring prompting）。報告最後深入討論了基於 GPT-4V 的系統的新興應用場景和未來研究方向。該研究希望這一初步探索能夠激發未來對下一代多模態任務制定的研究，開發和增強 LMM 解決現實問題的新方法，並更好地理解多模態基礎模型。

下面我們逐一介紹每個章節的具體內容。

論文第一章介紹了整個研究的基本情況。作者表示，他們對 GPT-V4 的探討主要在以下幾個問題的指導下進行：

1、GPT-4V 支持哪些輸入和工作模式？多模態模型的通用性必然要求系統能夠處理不同輸入模態的任意組合。GPT-4V 在理解和處理任意混合的輸入圖像、子圖像、文本、場景文本和視覺指針方面表現出了前所未有的能力。他們還證明，GPT-4V 能夠很好地支持在 LLM 中觀察到的 test-time 技術，包括指令跟隨、思維鏈、上下文少樣本學習等。

2、GPT-4V 在不同領域和任務中表現出的質量和通用性如何？為了瞭解 GPT-4V 的能力，作者對涵蓋廣泛領域和任務的查詢進行了採樣，包括開放世界視覺理解、視覺描述、多模態知識、常識、場景文本理解、文檔推理、編碼、時間推理、抽象推理、情感理解等。GPT-4V 在許多實驗領域都表現出了令人印象深刻的人類水平的能力。

3、使用和提示 GPT-4V 的有效方法是什麼？GPT-4V 能夠很好地理解像素空間編輯，例如在輸入圖像上繪製的視覺指針和場景文本。受這種能力的啓發，研究者討論了「視覺參考提示」，它可以直接編輯輸入圖像以指示感興趣的任務。視覺參考提示可與其他圖像和文本提示無縫結合使用，為教學和示例演示提供了一個細緻入微的界面。

4、未來的發展方向是什麼？鑑於 GPT-4V 在跨領域和跨任務方面的強大能力，我們不禁要問，多模態學習乃至更廣泛的人工智能的下一步是什麼？作者將思考和探索分為兩個方面，即需要關注的新出現的應用場景，以及基於 GPT-4V 系統的未來研究方向。他們介紹了他們的初步探索結果，以啓發未來的研究。

GPT-4V 的輸入模式

論文第二章總結了 GPT-4V 支持的輸入，分為純文本、單個圖像 - 文本對、交錯圖像 - 文本輸入（如圖 1）三種情況。

GPT-4V 的工作模式和提示技術

1、遵循文字説明：

2、視覺指向和視覺參考提示：

3、視覺 + 文本提示：

4、上下文少樣本學習：

視覺 - 語言能力

論文第四章研究瞭如何利用 GPT-4V 來理解和解釋視覺世界。

首先 4.1 節探討了 GPT-4V 對不同域圖像的識別能力，包括識別不同的名人，並能詳細描述名人的職業、行為、背景、事件等信息。

除了識別名人外，GPT-4V 能準確識別測試圖像中的地標，還能產生生動而詳細的敍述，從而捕捉地標的特性。

GPT-4V 還可以識別各種菜餚，並給出菜餚中的特定成分，裝飾物或烹飪技術。

除此以外，GPT-4V 還可以識別常見的疾病，例如其能根據肺部的 CT 掃描指出潛在的問題，又或者對給定的 x 光片中的牙齒和頜骨，解釋下頜左下方和右側部分出現的智齒可能需要切除；GPT-4V 能正確識別徽標，並提供詳細的描述，包括其設計，顏色，形狀和符號；如果提示中出現的問題與照片不符，GPT-4V 也能進行反事實推理。

4.2 節探討了 GPT-4V 對目標的定位、計數和密集字幕生成。

下圖表明 GPT-4V 能夠理解圖像中人與物體之間的空間關係，例如識別飛盤和人之間的空間關係。

GPT-4V 能夠確定圖像中指定物體的數量，下圖表明 GPT-4V 成功地計算出圖像中出現的物體的數量，如蘋果、橘子和人。

GPT-4V 成功地定位和識別圖像中的個體，然後為每個個體提供簡潔的描述。

4.3 節介紹了 GPT-4V 能夠進行多模態理解以及對常識的掌握能力。下圖展示了 GPT-4V 能夠解釋笑話和梗圖：

GPT-4V 能夠回答科學問題：

GPT-4V 還能進行多模態常識推理：

4.4 節介紹了 GPT-4V 對場景文本、表格、圖表和文檔的推理能力。

GPT-4V 可以進行數學推理：

GPT-4V 還能閲讀一份多頁的技術報告，理解每個部分的內容，並對該技術報告進行總結：

4.5 節介紹了 GPT-4V 對多語言多模態的理解。

GPT-4V 能夠生成不同語言的圖像描述：

4.6 節介紹了 GPT-4V 的編碼能力。

基於手寫數學方程生成 LaTeX 代碼的能力：

GPT-4V 生成 Markdown/LaTex 代碼以重建圖像中表的能力：

GPT-4V 編寫代碼以複製輸入圖形的能力：

與人類的互動：視覺參考提示

在與多模態系統的人機交互中，指向特定空間位置是一項基本能力，例如進行基於視覺的對話。第 5.1 節顯示，GPT-4V 可以很好地理解直接畫在圖像上的視覺指針。基於這一觀察結果，研究者提出了一種名為「視覺參考提示（visual referring prompting）」的新型模型交互方法。如圖 50 所示，其核心思想是直接編輯圖像像素空間，繪製視覺指針或場景文本，作為人類的參照指示。作者在第 5.2 節詳細介紹了這種方法的用途和優勢。

最後，他們在第 5.3 節探討了如何讓 GPT-4V 生成視覺指針輸出，以便與人類互動。這些視覺指針對於人類和機器來説都能直觀地生成和理解，是人機交互的良好渠道。

時間和視頻理解

在第六章，作者討論了 GPT4V 的時間和視頻理解能力。儘管 GPT4V 主要以圖像作為輸入，但評估其對時間序列和視頻內容的理解能力仍然是對其整體評估的一個重要方面。這是因為現實世界中的事件會隨着時間的推移而展開，而人工智能系統理解這些動態過程的能力在現實世界的應用中至關重要。時序預測、時序排序、時序定位、時序推理和基礎時序理解等能力有助於衡量模型在一系列靜態圖像中理解事件順序、預測未來事件發生和分析隨時間變化的活動的能力。

儘管 GPT-4V 以圖像為中心，但它能夠以類似人類理解的方式理解視頻和時間序列。為了提高像 GPT-4V 這樣複雜的人工智能模型的通用性和適用性，這方面的測試對其發展和完善至關重要。

在這一章的實驗中，研究者使用了多個選定的視頻幀作為輸入，以測試模型在理解時間序列和視頻內容方面的能力。

多圖像序列

視覺推理與智商測試

對抽象視覺刺激和符號的理解和推理是人類智能的一項基本能力。論文第七章測試了 GPT-4V 是否可以從視覺信號中抽象語義，並可以執行不同類型的人類智商（IQ）測試。

抽象視覺刺激

情商測驗

在與人類互動時，GPT-4V 必須具備同理心和情商（EQ），以理解和分享人類的情感。受人類情商測試定義的啓發，作者研究了 GPT-4V 在以下方面的能力：從人的面部表情中識別和解讀人的情緒；理解不同的視覺內容如何激發情緒；根據所需的情緒和情感生成適當的文本輸出。

從面部表情中讀出情感

新興應用亮點

這一章展示了 GPT-4V 的卓越功能可能帶來的無數高價值應用場景和新用例。誠然，其中一些應用場景可以通過精心策劃用於微調現有視覺和語言（VL）模型的訓練數據來實現，但作者想強調的是，GPT-4V 的真正威力在於它能夠毫不費力地實現開箱即用。此外，他們還介紹了 GPT-4V 如何與外部工具和插件無縫集成，從而進一步拓展其潛力，實現更多創新和協作應用。

找不同