在人工智能領(lǐng)域,一項由上海AI實驗室推出的創(chuàng)新研究正引領(lǐng)著視覺推理的新潮流。該研究由趙詩田、張浩泉、林紹亨、李明等科研先鋒領(lǐng)導(dǎo),并于2025年初發(fā)表了一篇題為《PyVision:具備動態(tài)工具生成能力的主動視覺》的論文,感興趣者可訪問arXiv:2507.07998v1獲取全文。
面對復(fù)雜多變的圖像信息,人類總能靈活調(diào)整觀察策略,如瞇眼聚焦、部分遮擋或變換視角。然而,傳統(tǒng)AI系統(tǒng)在處理視覺任務(wù)時卻顯得刻板,只能依賴預(yù)設(shè)算法,缺乏針對特定問題的創(chuàng)造性解決方案。上海AI實驗室的研究團隊敏銳地洞察到了這一局限,并開發(fā)了PyVision框架,賦予AI系統(tǒng)動態(tài)“發(fā)明”和使用工具的能力。
PyVision的核心在于,它并非簡單地為AI提供一套預(yù)制工具,而是教會AI利用Python編程語言動態(tài)創(chuàng)造解決問題的工具。面對新的視覺挑戰(zhàn),AI會思考所需工具類型,并現(xiàn)場編寫代碼予以實現(xiàn)。這一轉(zhuǎn)變,如同為AI配備了一個無限潛能的工具箱,且能根據(jù)需要即時制造新工具。
在經(jīng)典視覺錯覺案例中,如艾賓浩斯錯覺的“反向”版本,PyVision展現(xiàn)了其獨特優(yōu)勢。傳統(tǒng)AI會基于預(yù)設(shè)知識誤判兩個圓形大小相同,而PyVision則通過分析問題本質(zhì),決定實際測量圓形大小。它編寫代碼獲取圖像中圓形的RGB值,創(chuàng)建遮罩分離圓形區(qū)域,并計算像素面積,最終準(zhǔn)確識別出右邊圓形明顯更大。
PyVision在處理不同視覺問題時,會自發(fā)創(chuàng)造多種類別的工具。基礎(chǔ)圖像處理工具如同AI的“日常技能”,如裁剪、旋轉(zhuǎn)和增強對比度;高級圖像處理工具則似“專業(yè)技能”,用于醫(yī)學(xué)圖像分析、目標(biāo)檢測和OCR等;視覺提示和繪圖工具體現(xiàn)了AI的“創(chuàng)造性思維”,用于標(biāo)記物體、繪制輔助線;數(shù)值和統(tǒng)計分析工具則展現(xiàn)了AI的“理性分析能力”,用于顏色深淺比較和整體特征分析。
PyVision的另一大創(chuàng)新在于其多輪交互能力,AI與工具間進(jìn)行深度對話,每一輪對話都深化對問題的理解。這一過程如同修理工逐步診斷機械問題,AI根據(jù)每一步的執(zhí)行結(jié)果調(diào)整策略,直至問題得到充分解決。研究團隊設(shè)計了進(jìn)程隔離、跨輪次持久化和安全輸入輸出機制,確保交互過程的穩(wěn)定性和安全性。
在多個領(lǐng)域的基準(zhǔn)測試中,PyVision的表現(xiàn)令人矚目。在數(shù)學(xué)視覺推理任務(wù)中,它顯著提升了GPT-4.1和Claude-4.0-Sonnet的性能;在醫(yī)學(xué)圖像分析中,它準(zhǔn)確判斷視網(wǎng)膜眼底圖像的健康狀況;在遙感圖像分析中,它成功計算出衛(wèi)星圖像中的建筑物數(shù)量。PyVision還能根據(jù)不同任務(wù)需求,靈活調(diào)整工具使用策略,如在數(shù)學(xué)任務(wù)中傾向使用數(shù)值分析工具和視覺繪圖工具,在視覺搜索任務(wù)中則依賴裁剪工具精確定位圖像區(qū)域。
PyVision的技術(shù)架構(gòu)雖看似簡潔,實則蘊含精妙設(shè)計。系統(tǒng)提示為AI制定“行為準(zhǔn)則”,指導(dǎo)其訪問圖像、構(gòu)造代碼、返回結(jié)果和判斷任務(wù)完成。多輪交互機制確保AI進(jìn)行深度思考,而進(jìn)程隔離、跨輪次持久化和安全輸入輸出機制則保障系統(tǒng)穩(wěn)定性。
深入分析幾個典型案例,可更好地理解PyVision的工作原理。在“找不同”任務(wù)中,它分割圖像、計算像素差異、生成差異可視化圖,并系統(tǒng)分析高亮區(qū)域;在視頻理解任務(wù)中,它選擇關(guān)鍵幀分析不同類型的桌子。這些案例展示了PyVision在處理復(fù)雜任務(wù)時的靈活性和創(chuàng)造性。
PyVision的性能提升不僅體現(xiàn)在數(shù)字上,更是AI系統(tǒng)能力質(zhì)的飛躍。它讓AI從靜態(tài)工具使用者轉(zhuǎn)變?yōu)閯討B(tài)工具創(chuàng)造者,這一轉(zhuǎn)變可能引發(fā)AI領(lǐng)域的深刻變革。PyVision的成功證明,通過巧妙系統(tǒng)設(shè)計和創(chuàng)新交互機制,AI系統(tǒng)能展現(xiàn)出前所未有的靈活性和創(chuàng)造力。
PyVision的應(yīng)用前景廣闊,從醫(yī)療診斷到自動駕駛,從工業(yè)質(zhì)檢到安防監(jiān)控,再到教育和娛樂產(chǎn)業(yè),它都有望為各領(lǐng)域帶來革新。盡管目前仍面臨代碼生成穩(wěn)定性、計算效率、安全性和可解釋性等挑戰(zhàn),但研究團隊正積極尋求解決方案,以推動PyVision技術(shù)的不斷完善和發(fā)展。
隨著PyVision技術(shù)的不斷成熟,我們有理由期待,未來的AI系統(tǒng)將能夠更智能地適應(yīng)和解決現(xiàn)實世界的復(fù)雜問題,為人類社會創(chuàng)造更大價值。這一創(chuàng)新不僅提升了AI的性能,更改變了我們對AI能力的認(rèn)知,預(yù)示著AI正朝著更加自主和智能的方向發(fā)展。















