피지컬 AI의 거대한 진화:
VLM에서 VLA, World Model까지

사물을 인식에서 물리적 법칙을 이해하며 미래를 시뮬레이션하는
완전 자율형 피지컬 AI(Physical AI)로 진화하고 있습니다.

기술의 진화

인공지능이 물리적 세계와 상호작용하기 위해 거쳐온 핵심 모델들의 발전 단계를 확인해 보세요.

↓

스텝 1: 인지

VLM은 카메라를 통해 들어온 이미지나 비디오를 텍스트와 연결하여 이해합니다. 공간 내 사물의 위치와 상태를 묘사할 수 있으며, 높은 수준의 의미론적(Semantic) 이해를 제공합니다.

⚠ 한계점

상황을 이해할 수는 있지만, 이를 바탕으로 로봇의 모터나 관절을 제어하는 직접적인 물리적 행동(Action)을 계산하지 못합니다. 단순한 관찰자에 불과합니다.

연구실의 로봇이 산업 현장과 일상으로 나오기 위해 필수적으로 해결해야 하는 3대 병목 현상과 그에 대한 연구 방향입니다.

시뮬레이션에서 완벽하게 학습된 로봇의 정책이 현실 세계의 마찰, 조명, 센서 노이즈 등 미세한 물리적 차이로 인해 실패하는 근본적 문제입니다.

초거대 AI 모델(수십~수백억 파라미터)을 자원 제약이 심한 로봇 본체(Edge) 내부에서 초당 30프레임 이상의 저지연(Low Latency)으로 구동해야 하는 한계입니다.

LLM 학습용 텍스트 데이터와 달리, 로봇의 센서, 토크, 햅틱 정보를 포함한 실제 환경 상호작용 데이터는 구하기 어렵고 수집 비용이 천문학적으로 높습니다.