피지컬 AI의 거대한 진화:
VLM에서 VLA, World Model까지
사물을 인식에서 물리적 법칙을 이해하며 미래를 시뮬레이션하는
완전 자율형 피지컬 AI(Physical AI)로 진화하고 있습니다.
기술의 진화
인공지능이 물리적 세계와 상호작용하기 위해 거쳐온 핵심 모델들의 발전 단계를 확인해 보세요.
시각과 언어의 결합 (VLM)
VLM은 카메라를 통해 들어온 이미지나 비디오를 텍스트와 연결하여 이해합니다. 공간 내 사물의 위치와 상태를 묘사할 수 있으며, 높은 수준의 의미론적(Semantic) 이해를 제공합니다.
상황을 이해할 수는 있지만, 이를 바탕으로 로봇의 모터나 관절을 제어하는 직접적인 물리적 행동(Action)을 계산하지 못합니다. 단순한 관찰자에 불과합니다.
이해를 넘어선 행동 제어 (VLA)
VLA(예: RT-2)는 VLM의 구조에 '행동 토큰(Action Token)'을 통합한 모델입니다. "사과를 집어라"는 언어 명령과 현재 카메라 화면을 입력받아, 즉각적으로 로봇 팔의 관절 각도와 모터 제어값을 출력합니다.
학습 데이터에 없는 새로운 상황(Out-of-Distribution)에 대처하지 못하며, 물체가 떨어지거나 부서지는 등의 물리 법칙에 대한 직관이 부족하여 장기적인 계획 수립이 불가능합니다.
물리적 상상력과 미래 예측 (World Model)
World Model은 환경의 역학(Dynamics)을 시뮬레이션하는 모델입니다. 특정 행동을 했을 때 환경이 어떻게 변할지 미리 상상하고 예측합니다. VLA와 결합하여 행동 실행 전 시뮬레이션을 통해 최적의 경로를 탐색합니다.
물리적 상식(Physical Common Sense)을 획득함으로써 데이터에 없는 상황에서도 유추를 통해 문제를 해결하는 제로샷(Zero-shot) 일반화 성능과 복합적인 장기(Long-horizon) 태스크 수행이 가능해집니다.
피지컬 AI 핵심 해결 과제
연구실의 로봇이 산업 현장과 일상으로 나오기 위해 필수적으로 해결해야 하는 3대 병목 현상과 그에 대한 연구 방향입니다.
Sim-to-Real 격차
시뮬레이션에서 완벽하게 학습된 로봇의 정책이 현실 세계의 마찰, 조명, 센서 노이즈 등 미세한 물리적 차이로 인해 실패하는 근본적 문제입니다.
▶ 연구 및 해결 방향
도메인 무작위화(Domain Randomization) 고도화, NeRF를 활용한 초실감 디지털 트윈 구축, World Model 기반 고품질 합성 데이터(Synthetic Data) 생성 기술.
실시간 엣지 컴퓨팅 추론
초거대 AI 모델(수십~수백억 파라미터)을 자원 제약이 심한 로봇 본체(Edge) 내부에서 초당 30프레임 이상의 저지연(Low Latency)으로 구동해야 하는 한계입니다.
▶ 연구 및 해결 방향
극단적 파라미터 양자화(Quantization), 지식 증류(Knowledge Distillation), 로보틱스 연산 전용 NPU 및 초저전력 가속기 하드웨어 설계.
물리적 상호작용 데이터 고갈
LLM 학습용 텍스트 데이터와 달리, 로봇의 센서, 토크, 햅틱 정보를 포함한 실제 환경 상호작용 데이터는 구하기 어렵고 수집 비용이 천문학적으로 높습니다.
▶ 연구 및 해결 방향
비지도 학습 기반 자기 탐색(Self-exploration) 로봇군, 유튜브 등 인터넷 비디오 구조 분석을 통한 간접 물리 법칙 추출(Video-to-Physics).