京東探索研究院近日宣布,其自主研發(fā)的圖像編輯模型JoyAI-Image-Edit正式開源,成為全球首個深度融合"空間智能"技術的開源項目。該模型突破傳統(tǒng)平面修圖局限,首次實現了三維空間層面的圖像理解與編輯能力,為開發(fā)者提供了可直接應用的完整推理代碼框架。
通過構建包含空間位置建模、多視角一致性、相機參數感知等核心模塊的技術體系,該模型在三維空間重塑領域取得多項突破。實驗數據顯示,在物體移動精度、空間結構一致性等關鍵指標上,其性能已達到國際領先水平。研發(fā)團隊特別強調,模型通過深度解析真實世界的空間規(guī)律,實現了相機視角變換、物體空間位移、幾何結構精準控制等復雜操作。
該模型最具創(chuàng)新性的三大功能包括:智能視角變換系統(tǒng)支持通過自然語言指令調整相機參數,在保持場景幾何完整性的同時生成新視角圖像;連續(xù)空間漫游功能可生成邏輯連貫的多視角圖像序列,模擬三維空間中的自然移動效果;智能物體關系操控技術能在保持場景整體結構穩(wěn)定的前提下,對指定物體進行位移、縮放等操作,并自動優(yōu)化遮擋關系與光影效果。
在基礎功能層面,模型兼容15類主流圖像編輯需求,涵蓋物體替換、元素增刪、風格遷移、細節(jié)優(yōu)化等高頻應用場景。其多模態(tài)處理能力可同時支持結構化空間編輯與藝術化內容創(chuàng)作,形成完整的圖像處理解決方案。
目前該模型已在電商內容生產、創(chuàng)意設計、智能圖像處理、3D建模重建等多個領域展開應用測試。特別是在具身智能視覺感知領域,其提供的底層空間理解能力,為機器人環(huán)境感知、虛擬場景構建等前沿技術研發(fā)提供了重要支撐。開發(fā)者社區(qū)反饋顯示,模型的開源架構顯著降低了空間智能技術的開發(fā)門檻,加速了相關技術的產業(yè)化進程。















