023 年 12 月 6 日,谷歌發布了最新一代的通用人工智能大模型 Gemini,并報告在多項測試中取得了最先進的結果,甚至在 MMLU 測試中首次取得了超過人類專家的成績,人工智能似乎進入 Gemini 時代。
直到北京時間上周三晚谷歌才正式開放 Gemini Pro 版本的 API,使得用戶可以親自體驗。Gemini 的實際多模態能力究竟如何呢?是否真如他們技術報告和宣傳視頻中展示的那樣?是否超越了 GPT-4V?和其他開源模型相比又如何呢?
在 Gemini Pro 的 API 開放后不到一周,港中文聯合多加單位共同公布了一份長達 128 頁的評測報告,將 Gemini Pro 與目前最先進的 GPT-4V 進行對比,探索其是否能挑戰 GPT-4V 的在多模態領域的霸主地位,并和最新的開源大模型 SPHNIX 進行比較,揭示開源模型與黑盒系統之間的差距。
項目鏈接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
報告對 Gemini Pro 的視覺理解能力進行了初步探索,全面涵蓋了基礎感知(Fundamental Perception)、高級認知(Advanced Cognition)、挑戰性視覺任務(Challenging Vision Tasks)和各種專家能力(Expert Capacity)四個領域,在 17 類任務項上進行了定性比較,并在專門針對多模態大模型設計的 MME 評測基準測試上進行定量評估。
定性樣例測試表明,雖然 GPT-4V 和 Gemini Pro 表現出不同的回答風格和偏好,但它們可以表現出相當的視覺推理能力,而 SPHNIX 在領域泛化性方面仍然落后于它們。
具體來說,GPT-4V 傾向于闡述詳細的解釋和中間步驟,而 Gemini Pro 更喜歡輸出直接而簡潔的答案。定量基準測試展示了 Gemini Pro 令人印象深刻的多模態理解性能,以及其成為 GPT-4V 強有力挑戰者的潛力。
對 Gemini 和 GPT-4V 的研究還觀察到多模態大模型在視覺理解、邏輯推理和提示魯棒性等方面的一些常見問題,這表明在距離實際可落地的通用多模態大模型仍然有很長的路要走。
下面我們逐一介紹報告中的具體內容。
專為多模態大語言模型專門設計的評測基準 MME 試涵蓋目標存在性判斷、物體計數、位置關系、顏色判斷、OCR 識別、海報識別、名人識別、場景識別、地標識別和藝術品識別等感知任務,以及常識推理、數值計算、文本翻譯和代碼推理等認知任務,并為每個測試任務圖像設計判斷“是”“否”的問題以便于指標統計。
在感知和認知的綜合表現方面,Gemini Pro 表現出優異的表現,得分為 1933.4,緊隨其后的是 GPT-4V 模型,得分為 1926.6。
另外我們可以觀察到:
1. GPT-4V 拒絕回答名人相關的問題,導致其在名人識別任務上的得分為 0 分,這在后續的定性實驗中也有體現;
2. Gemini 和 GPT-4V 在位置識別任務上表現都不佳,表明他們對空間位置信息不敏感,這在后續的定性實驗中也反映了出來;
3. 開源模型 SPHINX 在感知任務上與 GPT-4V 以及 Gemini 平齊甚至更優,這可能是因為 SPHINX 在訓練時關注了很多感知類的任務比如目標檢測;但在認知任務上,比如常識推理、數值計算、文本翻譯和代碼推理等,SPHINX 距離 GPT-4V 以及 Gemini 有較大差距。
基本感知是指多模態大模型處理和解釋感官數據(主要是視覺數據)的能力,以對其感知的環境產生連貫的理解。感知能力直接影響模型在高階任務中的能力,因為它決定了模型獲取和處理原始視覺輸入的準確性和有效性。報告中分別測試了模型的對象級感知能力、場景級感知能力和基于知識的感知能力。具體包括以下細分任務:
1. 空間關系
無論是 Gemini Pro 還是 GPT-4V,似乎都很難識別左右。更進一步。通過上下文少樣本學習幫助模型理解什么是“左”,只用 GPT-4V 成功學習了這個概念,做出了正確的回答。
2. 物體計數
在前三個簡單樣例中,模型都取得了較準確的結果,但在較復雜的樣例中,模型都容易出錯。在 NBA 球員圖片中共有 42 名球員,Gemini Pro 的答案(41 人)已經非常接近正確答案了。
3. 找不同
所有模型都具有感知圖像之間細粒度差異的潛力,盡管它們的性能并不穩定。在圖 5 中,實際只有三處差異,當模型被要求識別五處差異時,Gemini Pro 和 GPT-4V 都捏造了五處差異并做出了錯誤的響應。
4. 視覺錯覺
左側樣例中,兩個梨實際上具有相同的亮度。然而,點綴的黑白條紋產生了一種錯覺,使右側的梨顯得更亮。Gemini Pro 識別到兩者具有相同的亮度,而 GPT-4V 和 SPHNIX 被視錯覺所欺騙,認為右邊的梨更亮。
5. 場景理解
模型都能夠描繪場景中的關鍵視覺元素。相比之下,GPT-4V 顯示出優越的性能,描述更加詳細,并且幻覺的實例也更少。
6. 視頻場景理解
從視頻中抽取三個時刻的關鍵幀,Gemini Pro 能夠將不同幀的信息整合成一個連貫的場景描述。特別地,第一幀顯示兩張圓桌和一盆植物,第二幀顯示一張圓桌和三盆植物。Gemini Pro 成功地融合了兩幀中的信息,準確地將場景描述為包含兩張圓桌和三盆植物。GPT-4V 只是逐幀描述圖像的內容。相比之下,SPHNIX 的描述并沒有表現出對圖像序列的全面理解。
7. 常識
SPHNIX 在應用社會規范方面的表現與 Gemini Pro 和 GPT-4V 相當,但在物理規律的應用方面表現稍差。如圖 14 所示,Gemini Pro 和 GPT-4V 可以準確地選擇厚重的衣服用于南極洲的寒冷天氣防護,而 SPHNIX 雖然知道寒冷天氣需要穿厚衣服,但它錯誤地將 T 恤圖像識別為適合防寒。
8. 學科知識
報告中測試了模型對物理化學、歷史地理等學科知識的了解。Gemini Pro 和 GPT-4V 都擁有與這些樣例相關的學科知識。
9. 多元文化習俗
測試樣例呈現具有鮮明的民族和文化特征的圖像,并提示模型提供描述。模型都能夠理解圖像中描繪的種族和文化元素,但 SPHNIX 不具備多語言能力。
10. 世界知識
報告研究了模型識別名人、地標、標志、電影、食物、植物、動物等的能力。模型通常可以正確識別它們。此外,當被問及與真實人物相關的信息時,GPT-4V 通常會選擇不回應,但在圖 23 右側樣例中,或許因為圖像中有人物相關信息,GPT-4V 罕見地回答了問題。
在基本感知之上,報告更進一步評估了多模態大模型更高級的認知能力。認知任務不僅需要理解視覺環境中的多模態概念,還需要進行深入的推理、解決問題和決策。報告中分別測試了模型的富含文本的視覺推理能力、抽象視覺推理能力、解決科學問題能力、情感分析能力、智力游戲能力。具體包括以下細分任務:
11. 表格和圖表推理
報告評測了模型對流程圖和圖表分析的能力,Gemini Pro 可以用簡短的句子正確地概括流程圖的高級思想,GPT-4V 傾向于對圖表中的邏輯流程進行更詳細的描述,但偶爾會出現一些錯誤,SPHNIX 由于缺乏相關的預訓練數據未能提取含義。在圖 42 右側樣例中,Gemini Pro 和 GPT-4V 都可以理解手繪視覺提示,表明了它們對視覺輸入的泛化能力。
12. 代碼生成
將結構化視覺內容轉換為相應的代碼是多模態大模型的一項重要技能,分別測試了模型識別公式生成 LaTex 代碼和識別網頁生成 HTML 代碼的能力。Gemini Pro 和 GPT-4V 在公式識別上表現出更好的結果,但仍然會錯誤識別一些小字符或符號。三個模型的識別網頁生成相應 HTML 代碼的能力仍然存在很大的改進空間。
13. 抽象視覺刺激
對抽象視覺刺激和符號的理解和推理是人類智能的一項基本能力。GPT-4V 展示了最好的抽象性能,提供了對象如何由形狀組成的詳細描述。Gemini Pro 能識別一些簡單的抽象模式。
14. 韋氏成人智力量表
15. 瑞文推理測驗
16. 數學問題
與常規視覺問答不同,數學問題的解決既涉及視覺輸入的 OCR 能力,又涉及后續推理步驟中的定量處理準確性。
17. 物理問題
Gemini Pro 和 GPT-4V 表現出了良好的物理問題推理能力,并很好地利用了預先訓練的專業知識作為參考。然而,它們的性能可能受到數學計算和物理方程的準確性的限制。由于物理問題的訓練數據匱乏,SPHNIX 缺乏解決此類科學問題的能力。
18. 表情分析
模型在表情分析中都表現出良好的性能。其中,GPT-4V 提供了更加辯證的思維和嚴謹的分析,Gemini Pro 則可以直接以簡潔的信息給出準確的答案。圖 64 中,GPT-4V 和 SPHNIX 都捕獲圖像中截斷的文本內容,并將這些信息合并到推理中,展現了他們的綜合視覺理解能力。
19. 圖像情感分析
模型都可以很好地描繪視圖,并提供其中可能的情感。GPT-4V 觀察是中立的,強調情緒是主觀的,同時給出了更全面的分析。Gemini Pro 傾向于直接輸出情感偏好。
20. 情感調節輸出
與圖像情感分析不同,情感調節輸出使多模態大模型能夠描述以預定義情感為條件的視覺上下文。雖然 Gemini Pro 和 GPT-4V 能夠正確地將相應的情感注入到生成的文本中,但它們都遇到了幻覺問題。
21. 數獨游戲
如果僅以圖像作為輸入,盡管 Gemini Pro 嘗試在輸出矩陣內提供答案,但無法正確識別空白位置,而 GPT-4V 和 SPHNIX 則無法進行第一步 光學字符識別。此外,給定相應的文本輸入,Gemini Pro 和 GPT-4V 都可以給出正確的答案。
22. 填字游戲
23. 圍棋游戲
圍棋游戲涉及復雜的戰略思維和基于規則的決策,被視為通用人工智能的試金石。模型可以掌握一些初始技能,并預測棋盤上合法位置的下一步棋。
報告還評估了多模態大模型在超出標準視覺問答范圍的各種具有挑戰性的視覺任務中的性能,這些任務需要模型具有深厚的視覺感知和理解能力,評估他們在這些視覺任務的表現將有助于深入了解模型在多領域應用的可行性。報告中分別測試了模型在圖像視覺任務和時序視覺任務中的性能。具體包括以下細分任務:
24. 目標檢測
25. 指稱表達式理解
Gemini Pro 和 GPT-4V 都能夠識別指稱對象的大致位置,但它們很難提供精確的坐標和框大小。而 SPHNIX 展示了提供引用對象的準確位置和大小的能力。
26. 短語定位
Gemini Pro 和 GPT-4V 可以正確提取表達式中的短語,卻無法正確定位物體。
27. 人臉檢測與識別
人臉檢測和識別是計算機視覺中的一項重要任務。Gemini Pro 可以準確識別圖像中所有面部的排列,并準確識別每個面部的相應名稱。而 GPT-4V 因為隱私安全回避請求。SPHNIX 提供了幾乎正確的邊界框,但無法識別這些面孔。
28. 目標跟蹤
雖然 Gemini Pro 和 GPT-4V 都能夠描繪出要跟蹤的目標的細節,但它們隨后兩幀圖像中提供了錯誤的邊界框。
29. 視頻動作識別
從視頻片段中抽取多個代表性幀輸入到模型中,Gemini Pro 和 GPT-4V 都展示了識別圖像中的動作并提供詳細描述的能力,SPHNIX 缺乏詳細的描述。
30. 視覺故事生成
任務要求模型完全理解圖像中的信息,并在生成的故事中對其進行邏輯組織。Gemini Pro 和 SPHNIX 提供了連貫的故事,但卻和沒有十分貼近漫畫劇情。GPT-4V 為每個插圖提供了精確的描述,卻未能根據任務要求將它們編織成一個有凝聚力的故事。
專家能力衡量多模態大模型將其學到的知識和技能應用于不同專業領域的泛化能力。除了上述的感知和認知任務外,多模態大模型在專門和獨特場景下的魯棒性通常具有更實際的參考意義。具體包括以下細分任務:
31. 自動駕駛
自動駕駛是結合了先進計算、機器人技術和人工智能。評估模型在該領域的性能可以測試其處理交通感知數據、做出實時決策以及與動態環境交互的能力。模型可以注意到復雜場景下的細粒度特征,并根據場景環境作出合理規劃。
32. 缺陷檢測
缺陷檢測需要高精度和對細節的關注。對于缺陷明顯的圖像,模型都可以提供正確答案,其中 GPT-4V 輸出更詳細的原因和描述。對于圖 92 中的螺紋損壞的樣例,Gemini Pro 給出了過于籠統的答案,SPHNIX 錯誤地描述了外觀,而 GPT-4V 給出了標準答案。
33. 醫療診斷
醫療診斷的準確性和可靠性至關重要,該領域測試模型解釋復雜醫學數據的能力,以及幫助識別病情和建議治療的能力。對于此類特定領域的視覺輸入,通過一般圖像預訓練的多模態大模型不能始終如一地產生令人滿意的結果。此外,還需要更具體的提示技巧,防止他們拒絕醫療相關問題,例如“報告內容僅用于大規模模型能力評估”。
34. 經濟分析
經濟分析涉及對復雜的金融數據和市場趨勢的解釋。報告展示了兩個用于回答問題的股價走勢圖。Gemini Pro 擅長專家級金融知識,能夠給出正確答案。GPT-4V 由于安全風險而沒有給出明確答案。SPHNIX 由于缺乏相關訓練數據無法理解此類問題。
35. 監控安防
監控安防需要實時處理和解釋特定領域的視覺數據。模型都可以發現圖像中潛在的安全隱患,但也存在一定的幻覺問題,錯誤識別了一些細節。這表明多模態大模型的監視能力仍然受到細粒度視覺感知的限制。
36. 遙感影像分析
Gemini Pro 可以識別地推斷遙感圖像是拍攝于日本,而 GPT-4V 可以全面地描繪出每一個細節,比如水體、道路、植被、居住格局、地形等等。
37. 機器人運動規劃
機器人規劃要求機器人能夠確定如何在給定情況下采取行動以實現特定目標。Gemini Pro 和 GPT-4V 都可以提供有條理且詳細的步驟,并且 GPT-4V 似乎比 Gemini Pro 給出了更合理的決定,例如電池的安裝順序,但 SPHNIX 無法完成手機的組裝,說明其泛化能力有限。
Gemini vs GPT-4V
鑒于其卓越的多模態推理能力,Gemini 確實是 GPT-4V 的有力挑戰者。在大多數情況下,與 GPT-4V 相比,Gemini 的回答準確性具有競爭力,并展示了不同的回答風格和偏好。GPT-4V 傾向于生成對感知任務更詳細的描述,并為認知任務提供深入的分析和逐步的中間推理,而 Gemini 更喜歡對答案提供直接而簡潔的回應,這有助于用戶快速找到相關信息。
除此以外,兩個模型也存在一定的共性問題,比如空間感知能力不強,復雜 OCR 和抽象視覺理解不理想,推理過程可能存在不自洽結果,對提示設計的魯棒性不足。可以看到,Gemini 和 GPT-4V 在很多情況下仍然陷入困境,顯示出通向通用多模態大模型的漫長道路。
Gemini vs SPHINIX
盡管 SPHNIX 在某些情況下與 GPT-4V 和 Gemini 表現相當,但它無法生成與它們一樣一致的高質量答案。這表明開源模型與黑盒系統仍然存在一些不可忽視的差距。導致差距的原因主要是訓練數據缺乏多樣性和底層模型的固有推理上限。
Gemini 和 GPT-4V 都是這個時代多模態大模型的先驅,展示了通用人工智能的火花。多模態大模型的未來發展可以集中在三個方面:視覺表示編碼(細粒度外觀、空間關系感知)、多模態對齊(減輕幻覺、OCR 準確性)以及模型推理能力(定量處理、邏輯一致性)。
關于 Gemini Pro 與 GPT-4V、SPHNIX 的更多評估比較,請查看原論文。
方法將解決問題表示為對大型語言模型的推理步驟進行搜索,從而允許從左到右解碼之外的戰略探索和規劃。這提高了數學謎題和創意寫作等挑戰的表現,并增強了 LLM 的可解釋性和適用性。
圖片由作者使用 Midjourney 創建
最近,像 GPT-3 這樣的大型語言模型 (LLM) 在數學推理和常識知識等領域表現出令人印象深刻的能力。然而,他們的基本文本生成方法——從左到右、逐個標記——可能會限制戰略規劃和探索。該論文表明,這種方法顯著提高了LLM在數學難題和創意寫作等挑戰中解決問題的能力。
最近的一篇論文《思想之樹:用大型語言模型解決深思熟慮的問題》(Tree of Thoughts: Deliberate Problem Solving with Large Language Models)——作者是 Shunyu Yao、Dian Yu、Jeffrey Zhao、Izhak Shafran、Thomas L. Griffiths、Yuan Cao、Karthik Narasimhan——提出了一個名為“思想之樹”(ToT)的新框架,以增強 GPT-3 和 GPT-4 等大型語言模型 (LLM) 的問題解決能力。目前,LLM 在生成文本時僅限于從左到右的令牌級決策,這在需要更多戰略規劃和探索的任務中可能不足。
ToT 將解決問題的過程表示為在樹上的搜索,其中每個節點都是一個“思想”——一個連貫的文本塊,代表一個中間推理步驟。這使得LLM可以探索多種推理路徑,并評估不同思想解決問題的進展。具體而言,該框架涉及:
這種深思熟慮的搜索使LLM能夠向前看,回溯,并在需要時做出更多的全球選擇。模塊化框架與模型無關,可以靈活地調整其組件,如思維大小、生成、評估和搜索,以適應問題結構。
作者在三個新任務上演示了 ToT——24 人游戲、創意寫作和迷你填字游戲。在所有情況下,ToT 都比標準提示基線顯著提高了 GPT-4 解決問題的性能。例如,在 Game of 24 中,成功率從思維鏈提示的 4% 增加到 ToT 的 74%。
總體而言,ToT 提供了一種將經典 AI 的符號規劃和搜索方法與現代 LLM 集成的方法。其基于語言的思想和審議的可解釋性也為人類更好地協調提供了機會。作者提出了一個令人興奮的新方向,以在LLM中開發更通用的問題解決能力。
思想之樹方法與其他將符號規劃或搜索與神經模型相結合的方法(例如 NeuroLogic 解碼或 LLM+P 框架)相比如何?
ToT 框架的不同之處在于,它使用 LLM 本身在搜索過程中提供啟發式指導,而不是依賴于單獨的經典規劃器 (LLM+P) 或硬編碼啟發式 (NeuroLogic)。基于語言的思想表征也比符號規劃語言更靈活。然而,ToT 還沒有達到 LLM+P 所展示的 LLM 和 planner 組件之間的緊密集成和雙向通信水平。
思想之樹方法能否應用于自然語言任務,如對話對話或故事生成,而不僅僅是受約束的推理任務?
雖然本文的重點是推理任務,但將可能的延續表示為可以考慮的思想的一般框架似乎適用于約束較少的生成問題。對于對話,想法可以是接下來要說的候選話語,而對于故事,它們可以是情節點或角色動作。關鍵的挑戰是定義連貫的思維步驟和制定有效的評估提示。
這項研究有什么創新之處?
關鍵的創新是將語言模型推理構建為對思想樹的搜索,而不僅僅是從左到右的標記生成。這允許更深思熟慮的規劃、對替代方案的探索以及全球展望/回溯。與以前的搜索方法相比,將思想表示為連貫的語義單元也是一種創新。
這項研究的更廣泛意義是什么?
這項研究可以顯著增強LLM的問題解決和推理能力,使其能夠用于更復雜的現實世界應用,如編碼、數據分析、機器人等。它還使模型決策更具可解釋性。經典搜索方法與神經模型的集成是一個令人興奮的方向。
如果有的話,這項研究有哪些潛在的問題或疏忽?
探索的任務仍然相對簡單。這種方法是否適用于更開放的問題還有待觀察。與標準采樣相比,搜索過程可能會產生更高的計算成本。修剪次優分支的啟發式方法目前尚不完善。
這項研究的下一個合乎邏輯的研究步驟是什么?
接下來的重要步驟是探索更復雜的規劃和決策任務的ToT,將其與外部知識檢索相結合,并研究是否可以通過元學習或強化學習來更有效地學習變體,而不是僅僅依賴預先訓練的LLM。分析思維規模、搜索預算和性能之間的相互作用也是一個懸而未決的問題。
Matthew Mayo(@mattmayo13 歲)是一名數據科學家,也是開創性的在線數據科學和機器學習資源 KDnuggets 的主編。他的興趣在于自然語言處理、算法設計和優化、無監督學習、神經網絡和機器學習的自動化方法。Matthew擁有計算機科學碩士學位和數據挖掘研究生文憑。可以通過 kdnuggets[dot]com 的 editor1 與他聯系。
原文標題:Exploring Tree of Thought Prompting: How AI Can Learn to Reason Through Search
原文鏈接:https://www.kdnuggets.com/2023/07/exploring-tree-of-thought-prompting-ai-learn-reason-through-search.html
作者:Matthew Mayo
編譯:LCR
西歷史博物館春節參觀
溫
馨
提
示
親愛的觀眾朋友們:
金龍飛舞賀新春,闔家團圓樂無邊。在此新春佳節來臨之際,陜西歷史博物館祝您春節快樂,幸福安康!
01
來之前你要知道
Q
陜西歷史博物館
*請認真填寫需求信息,我們會在24小時內與您取得聯系。