螞蟻靈波開源LingBot-Map，單攝像頭實時建圖能比離線方案更准嗎

2026年4月16日，螞蟻集團旗下具身智能公司螞蟻靈波科技宣布開源流式三維重建模型LingBot-Map。

這套模型僅需一顆普通RGB攝像頭，就能在視頻採集過程中實時完成相機位姿估計與場景三維結構重建，為機器人導航、自動駕駛、AR眼鏡等場景提供持續的空間感知能力。

流式三維重建的核心難點在於平衡幾何精度、時序一致性與運行效率。與傳統方法“先採集、後處理”的模式不同，流式重建要求系統邊看邊理解，一邊接收新畫面一邊持續完成定位與建圖，同時還要控制計算與存儲開銷。

LingBot-Map採用了純自回歸式建模，基於幾何上下文Transformer，在不依賴未來幀信息的前提下逐幀處理當前及歷史畫面。

其核心創新在於幾何上下文注意力機制（GCA），能夠高效組織和利用跨幀幾何信息，在保留關鍵歷史數據的同時減少冗餘計算。

這一設計借鑒了經典SLAM系統對空間信息分層管理的思路，但將傳統方法中依賴手工設計和複雜優化的部分交由模型統一學習完成。

性能方面，LingBot-Map在多個權威基準上表現突出。在Oxford Spires數據集上，模型絕對軌跡誤差（ATE）僅為6.42米，軌跡精度較此前最優流式方法提升約2.8倍，甚至優於離線方法DA3（12.87米）和VIPE（10.52米）。

在ETH3D基準上，其重建F1分數達到85.70，較第二名提升超過8%。推理速度可實現約20FPS，並支持超過10,000幀的長視頻連續推理，長序列運行精度幾乎無衰減。

單攝像頭方案對硬件成本的壓縮是顯見的。相比傳統視覺SLAM方案通常需要雙目相機、RGB-D相機或激光雷達配合，LingBot-Map將硬件門檻降到了一顆普通RGB攝像頭，這對於消費級機器人和低成本自動化設備而言意義直接。

但問題也隨之而來，純視覺方案在弱紋理、光照劇烈變化等場景下的魯棒性，能否真正滿足實際部署需求？

從ETH3D和Oxford Spires的測試結果看，模型在這些極端場景下依然保持了較好的精度，但實驗室數據與真實產線環境之間的差距，仍有待更多應用案例來驗證。

這是螞蟻靈波今年開源的第5款模型。今年1月，螞蟻靈波連續開源了高精度空間感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World以及具身世界模型LingBot-VA。

此次LingBot-Map的開源，補齊了實時空間理解與在線三維建圖的關鍵拼圖，與上述模型形成了從深度感知到場景重建、從世界模擬到決策執行的完整技術鏈路。

目前LingBot-Map的模型和代碼已在Hugging Face和ModelScope開源。

螞蟻靈波採取的開源策略並非孤例。Meta的DroidBot、谷歌的Open X-Embodiment Dataset等均在推動機器人數據的開源共享，而SLAM領域已有ORB-SLAM3、Kimera、VINS-Mono等成熟開源方案。

但與這些方案不同的是，LingBot-Map並非傳統的SLAM系統，而是基於學習方法的流式重建模型。它將經典SLAM中的位姿圖優化、閉環檢測等模塊，以數據驅動的方式重新實現。

這種做法能更好地利用大規模數據進行泛化能力提升，但也面臨模型可解釋性和長尾場景泛化的挑戰。開源後開發者社區的反饋，將是對這套方案真正價值的檢驗。

相關貼文：