YOUTUBE URL: https://youtu.be/nrSIlIvCGb0
로봇 지능의 혁명: Physical Intelligence Pi 0.5, 온몸으로 생각하고 움직이다
로봇 공학의 세계는 끊임없이 진화하고 있습니다. 최근 Physical Intelligence사가 발표한 ‘Pi 0.5’는 이러한 진화의 최전선에 서 있으며, 로봇 지능에 대한 기존의 통념을 뒤엎는 혁신적인 접근 방식을 제시합니다. Pi 0.5의 핵심 아이디어는 놀랍도록 현실적입니다. 바로 로봇의 ‘뇌’를 하나의 중앙 처리 장치에 집중시키는 대신, 로봇의 몸 전체, 즉 모든 손가락 끝, 팔꿈치 관절, 심지어 부드러운 실리콘 표면에까지 분산시키는 것입니다.
이러한 분산 지능 덕분에 Pi 0.5 기반 로봇은 마치 살아있는 생명체처럼 주변 환경을 감지하고, 즉각적으로 판단하며, 실시간으로 움직임을 조정할 수 있습니다. 상상해 보십시오. 로봇이 처음 방문하는 아파트에 들어가, 설거지 거리가 쌓인 곳을 스스로 파악하고, 별도의 지도나 와이파이 연결 없이도 즉시 분류 작업을 시작하는 모습을 말입니다. 이는 마치 느리고 중앙 집중적인 명령 센터라기보다는, 민첩하게 사고하는 근육들로 이루어진 팀과 같습니다. 이러한 능력은 로봇이 통제된 실험실 환경을 벗어나 예측 불가능한 실제 환경에 자연스럽게 적응하기 위해 반드시 필요한 단계입니다.
분산 지능: Pi 노드란 무엇인가?
Pi 0.5의 혁신은 단순히 하나의 장치나 단일 신경망으로 이루어진 것이 아닙니다. 같은 이름을 공유하지만 완전히 다른 문제를 해결하는 두 개의 계층으로 구성됩니다. 하위 계층은 ‘로봇의 반사 신경’으로, 상위 계층은 ‘로봇의 상식’으로 생각할 수 있습니다. 먼저 로봇의 반사 신경을 담당하는 하위 계층, 즉 ‘Pi 노드(Pi Nodes)’에 대해 자세히 알아보겠습니다.
로봇 반사 신경의 재정의
기존의 로봇은 모든 센서 데이터를 거대한 중앙 처리 장치로 전송하고, 복잡한 계산을 수행한 후, 각 팔다리에 운동 명령을 내리는 방식으로 작동합니다. 이는 변화가 거의 없는 공장 자동화 라인에서는 효과적일 수 있습니다. 하지만 동일한 로봇을 어질러진 거실과 같은 복잡하고 예측 불가능한 환경에 투입하면, 지연 시간(latency), 과도한 전력 소모, 그리고 혼란이라는 문제에 직면하게 됩니다.
Physical Intelligence는 Pi 노드를 통해 이러한 문제를 해결합니다. Pi 노드는 로봇의 몸 전체에 분산된 작은 레고 블록과 같습니다. 각 손가락 끝, 팔꿈치 관절, 부드러운 실리콘 손바닥 내부에 개별적인 Pi 노드가 탑재됩니다. 각 노드는 자체적인 소형 센서, 액추에이터 연결부, 그리고 미니 신경망을 갖추고 있습니다. 이 미니 신경망은 매 순간의 미세한 움직임 후에 번개처럼 빠른 강화 학습 업데이트 규칙을 실행합니다. 기본적으로 노드는 “이 움직임이 미끄러짐을 줄였는가? 장력을 완화했는가?”라고 자문하고, 실시간으로 가중치를 조정합니다.
수십 개의 노드에 걸쳐 ‘뇌’가 분산되어 있기 때문에, 중앙 서버와 계속 통신할 필요가 없습니다. 이는 통신 오버헤드를 극적으로 줄이고 전력 소모를 크게 절감합니다. Physical Intelligence가 부드러운 로봇 그리퍼를 이용해 진행한 테스트에서, 이러한 로컬 반사 신경 루프는 기존의 중앙 집중식 아키텍처에 비해 파지 정확도를 30% 향상시키고 전력 소모를 25% 감소시키는 결과를 보여주었습니다. 착용 가능한 햅틱 슬리브에서도 마찬가지였습니다. 더 부드러운 피드백, 더 긴 배터리 수명, 손의 피로도 감소 등의 효과가 나타났습니다.
또한, Pi 노드에는 고유수용성 감각(proprioceptive sensing)과 촉각 감각(tactile sensing) 기능이 내장되어 있습니다. 만약 그리퍼가 하중으로 인해 구부러지거나 늘어나면, 노드는 카메라에 미끄러짐이 감지되기도 전에 이를 인지하고 보정합니다. 이는 로봇이 물체를 더 안정적이고 섬세하게 다룰 수 있게 해줍니다.
하드웨어 제약 없는 유연성
Pi 노드의 또 다른 중요한 장점은 하드웨어에 구애받지 않는다는 것입니다. 개발자는 필요에 따라 저렴하고 구하기 쉬운 마이크로컨트롤러인 ESP32에도 해당 펌웨어를 탑재할 수 있습니다. 이는 Pi 0.5 기술의 접근성을 높이고 다양한 형태와 크기의 로봇에 적용될 수 있는 가능성을 열어줍니다. 즉, 특정 고가의 하드웨어에 얽매이지 않고, 다양한 로봇 플랫폼에서 분산 지능의 이점을 누릴 수 있게 됩니다.
로봇의 상식: 상위 계층 VLA 모델
지금까지 살펴본 로봇의 반사 신경, 즉 Pi 노드만으로는 로봇이 쥐고 있는 물체가 부드러운 스펀지인지, 아니면 날카로운 스테이크 나이프인지를 구분할 수 없습니다. 여기서 바로 상위 계층, 즉 ‘로봇의 상식’을 담당하는 또 다른 Pi 0.5가 등장합니다. 이 상위 계층은 이전에 비전-언어-행동(Vision-Language-Action, VLA) 모델로 알려진 기술에 기반합니다.
지난 몇 년간 AI 분야를 지켜봐 왔다면 VLA 모델이 익숙할 것입니다. 기본적으로 방대한 양의 캡션 달린 이미지와 언어 데이터를 트랜스포머 모델에 입력하고, 로봇 시연 데이터로 미세 조정한 후, 새로운 상황에서도 일반화되기를 기대하는 방식입니다. 대부분의 연구 그룹은 훈련에 사용된 특정 환경에서는 인상적인 시연을 보여주지만, 새로운 공간에서는 성능이 급격히 저하되는 경향이 있었습니다.
데이터 다양성: 일반화 능력의 핵심
Physical Intelligence는 이러한 일반화 문제를 매우 중요하게 생각하고, 데이터 다양성 확보에 전례 없는 노력을 기울였습니다.
- 1단계: 실제 주택 환경에서 로봇이 이동하며 물체를 조작하는 영상 약 400시간 분량을 기록했습니다. 이 과정에서 로봇은 의자에 부딪히기도 하고, 프라이팬 손잡이를 다루는 법을 스스로 알아내기도 했습니다.
- 2단계: 수십 개의 다른 환경에서 촬영된 정적인 로봇 클립을 추가했습니다. 여기에는 바퀴가 없는 단순한 로봇 팔의 데이터까지 포함하여 교차-체현(cross-embodiment) 데이터를 확보했습니다.
- 3단계: 표준 웹 데이터(이미지 캡셔닝, VQA, 객체 탐지)와 함께, 사람이 복잡한 집안일을 단계별로 로봇에게 직접 코칭하는 언어적 지시 세션을 혼합했습니다.
그 결과, Pi 0.5는 ‘베개가 무엇인지’부터 ‘세라믹 접시를 얼마나 세게 쥐어야 깨지지 않는지’까지 모든 것을 학습하는, 마치 프랑켄슈타인처럼 다양한 요소가 결합된 커리큘럼을 완성했습니다.
놀라운 일반화 성능: 실제 환경에서의 증명
이러한 방대한 데이터 학습의 효과는 어땠을까요? Physical Intelligence는 두 가지 엄격한 테스트를 진행했습니다.
- 분포 내(In-distribution) 테스트: 훈련 데이터에 포함된 장소와 유사한 환경에서 청소 작업을 수행했습니다. Pi 0.5는 86%의 언어 지시 이행률과 83%의 작업 성공률(모든 접시를 싱크대로 옮기는 등 세부 작업 포함)을 기록했습니다.
- 분포 외(Out-of-distribution) 테스트: 집, 물체, 심지어 조명까지 완전히 새로운 환경에서 테스트를 진행했습니다. 놀랍게도 완전한 Pi 0.5 시스템은 프롬프트 이해도와 작업 완료율 모두에서 94%라는 높은 성공률을 달성했습니다.
만약 훈련 데이터에서 인터넷 이미지를 제거하면 이 성공률은 70% 중반으로 떨어졌고, 다양한 환경의 로봇 데이터를 제외하자 성공률은 31%까지 급락했습니다. 이는 데이터의 ‘다양성’이 단순히 부가적인 요소가 아니라, 로봇의 일반화 능력에 있어 산소와 같이 필수적이라는 것을 명확히 보여줍니다.
또한, 연구팀은 훈련에 사용된 주택의 수를 한 자릿수에서 100개 이상으로 늘려가며 성능 변화를 측정하는 스케일링 연구를 수행했습니다. 성능은 주택 수 증가에 따라 거의 선형적으로 향상되었으며, 약 100개의 주택 데이터를 학습한 후에는 테스트 환경을 미리 학습 데이터로 접했던 ‘치트키’를 쓴 기준 모델과 거의 동등한 성능을 보였습니다. 이는 충분한 다양성만 확보된다면, 실제 그 환경을 경험하지 않고도 마치 홈그라운드 이점을 가진 것처럼 행동할 수 있다는 놀라운 결과입니다.
실시간 ‘사고의 연쇄’: 언어와 행동의 융합
Pi 0.5가 실제로 작동하는 방식에서 가장 흥미로운 엔지니어링적 성과는 바로 실시간 ‘사고의 연쇄(Chain of Thought)’ 루프입니다. 매초 다음과 같은 과정을 거칩니다.
- 고수준 텍스트 사고 생성: 먼저, ChatGPT가 문장을 생성하는 방식과 유사하게 이산적인 토큰 디코딩을 사용하여 “베개를 집어라”와 같은 고수준의 텍스트 생각을 생성합니다.
- 연속적인 행동 생성: 그런 다음, 별도의 모델 전환 없이 동일한 가중치를 사용하여 1초 분량의 행동 청크에 해당하는 50개의 관절 각도를 생성하는 연속적인 플로우 매칭 헤드로 전환합니다.
- 실행 및 미세 조정: 로봇 팔이 움직이고, 하위 계층의 Pi 노드들이 그립을 미세 조정하며, 카메라가 새로운 프레임을 촬영합니다.
- 반복: 이 과정이 실시간으로 반복됩니다.
하나의 공유된 ‘뇌’가 언어적 사고와 물리적 토크(회전력)를 실시간으로 융합하여 움직이는 것입니다. 하위 레벨 노드의 반사 신경이 매우 빠르기 때문에, 상위 레벨 VLA 모델은 약간 더 심사숙고하는 속도로 다음 의미론적 움직임을 계획할 여유를 가질 수 있습니다. 이는 마치 우리가 커피잔의 무게를 척수가 무의식적으로 조절하는 동안, 전두엽 피질은 열쇠를 어디에 두었는지 고민하는 것과 유사한 분업 구조입니다.
실제 환경 테스트: 가능성과 한계
낯선 환경에서의 활약
Physical Intelligence는 사전 스캔이나 특정 마커 부착 없이, 실제 낯선 사람들의 아파트에서 전체 시스템을 스트레스 테스트했습니다. 성공 사례와 실패 사례 모두를 가감 없이 영상으로 기록했습니다. 로봇은 침대를 정리하고, 빨래를 개고, 스펀지로 얼룩을 닦고, 장난감을 주워 담는 등의 작업을 수행했습니다. 때로는 봉제 인형을 잘못 인식하거나 팔의 궤적이 약간 벗어나기도 했지만, 종종 스스로 오류를 복구하는 모습을 보였습니다. 심지어 연구원들이 로봇 팔이 물건을 닦는 도중에 팔을 밀쳐 방해했을 때도, 대부분의 경우 로봇은 잠시 멈칫한 후 다시 계산하여 닦던 작업을 계속했습니다.
명령어 이해 및 작업 분해
사용자는 “둥근 브러시를 집어줘”와 같이 정확한 명령을 내릴 수도 있고, “침실을 청소해줘”처럼 모호하게 지시할 수도 있습니다. Pi 0.5는 모호한 명령을 받으면 스스로 임무를 작은 단위의 하위 작업으로 분해하여 순차적으로 수행하는 능력까지 보여주었습니다.
에너지 효율성: 분산 지능의 또 다른 장점
배터리 측면에서 보면, 분산 지능은 상당한 이점을 제공합니다. 각 Pi 노드는 필요한 계산 코어만 활성화하므로, 로봇 본체는 충전 없이 더 오랫동안 이동하며 작업을 수행할 수 있습니다. 앞서 언급했듯이, 그리퍼 시연에서 1/4의 에너지 절감 효과를 보인 것도 이러한 이유 때문입니다. 심지어 이 노드들은 동전형 배터리로도 구동될 수 있을 만큼 저전력으로 설계되었습니다. 이는 진정한 엣지 인텔리전스의 승리라고 할 수 있습니다.
기술적 디테일: 플로우 매칭과 액션 청크
수학적인 측면에서는, 연속적인 행동을 생성하는 헤드에 사용된 플로우 매칭(flow matching) 샘플러가 핵심적인 역할을 합니다. 일반적인 확산 모델(diffusion model)은 만족스러운 결과를 얻기 위해 수십 단계의 계산이 필요하지만, 플로우 매칭은 단 한 번의 순방향 패스(forward pass)만으로도 로봇의 움직임 궤적을 생성할 수 있습니다. 이는 센서 판독과 모터 구동 사이에 약 20밀리초밖에 주어지지 않는 실제 로봇 환경에서 매우 중요합니다. 또한, 액션 청크를 50 스텝(약 1초)으로 제한한 것은 서보 모터의 리프레시 속도와 고수준 계획자의 ‘기분 변화'(즉, 계획 변경) 사이의 균형을 맞추기 위함입니다. 한 번의 움직임을 완료하기에 충분히 길면서도, 예기치 않은 상황 발생 시 신속하게 방향을 전환할 수 있을 만큼 짧은 시간입니다.
미래 전망과 과제
지속적인 학습과 발전 방향
Physical Intelligence 팀은 Pi 0.5가 여전히 완벽하지 않다는 점을 솔직하게 인정합니다. 때때로 잘못된 고수준 계획을 선택하거나, 캐비닛에 부딪히거나, 포크를 거꾸로 잡는 등의 실수를 합니다. 연구팀은 로봇이 사람의 레이블링 없이 자신의 실행 경험으로부터 스스로 학습하고, 필요할 때 명확한 설명을 요구하는 질문을 하며, 완전히 다른 하드웨어(예: 두 팔 로봇에서 착용형 외골격 슬리브로) 간에 재훈련 없이 기술을 이전할 수 있는 모델을 꿈꾸고 있습니다.
데이터 확보를 위한 파트너십
이러한 목표를 달성하기 위해, 연구팀은 더 많은 데이터를 확보할 수 있는 파트너를 적극적으로 찾고 있습니다. 식료품점, 병원, 노인 요양 시설 등 로봇이 학습할 수 있는 복잡하고 예측 불가능한 환경을 운영하는 기업이나 기관과의 협력을 통해 데이터 ‘괴물’을 계속 키워나가고자 합니다.
결론: Pi 0.5가 제시하는 로봇 공학의 새로운 지평
Pi 0.5의 핵심 성공 요인은 두 가지로 요약할 수 있습니다. 첫째, 로봇의 몸 자체에 지능을 내장한 Pi 노드입니다. 이는 로봇이 토마토를 으깨고 있다는 사실을 깨닫기 위해 와이파이 신호가 오가기를 기다릴 필요가 없다는 것을 의미합니다. 둘째, 충분히 많은 집, 이미지 프레임, 언어 지시, 그리고 교차 로봇 시연 데이터를 학습하여 당신의 집에 처음 들어가더라도 얼어붙지 않는 강력한 VLA 모델입니다.
이 두 계층이 결합되어 훈련된 루틴과 진정한 적응성 사이의 경계를 허뭅니다. 매 순간 로봇은 자신과 조용한 대화를 나눕니다. “좋아, 고수준 목표는 설거지야. 첫 번째 하위 단계는 손잡이로 숟가락을 잡는 거야. 노드들아, 3뉴턴의 힘으로 잡고 미끄러짐을 감지해줘. 좋아, 이제 싱크대 쪽으로 회전해.” 이것은 고유수용성 감각이라는 심장 박동을 가진 ‘사고의 연쇄’입니다.
Pi 0.5가 중요한 이유는 바로 여기에 있습니다. 수년 동안 우리는 특정 매트 위에서만 백플립 착지를 성공시키는 로봇이나, 말은 청산유수처럼 하지만 문고리 하나 돌리지 못하는 언어 모델을 봐왔습니다. Pi 0.5는 단순히 중앙 집중식 모델을 더 크게 만드는 대신, 엣지에서의 반사 신경과 데이터가 풍부한 관리자 ‘뇌’를 결합함으로써 이 두 세계를 하나로 엮습니다.
이름에서 알 수 있듯이 Pi 0.5는 첫 번째 Pi 0과 미래의 Pi 1.0 ‘메가 브레인’ 사이의 중간 지점처럼 보입니다. 하지만 이 중간 지점만으로도 우리는 완전히 새로운 부엌에 들어가, 보이지 않던 접시를 발견하고, 청소 계획을 세우며, 결정적으로 10밀리초 이내에 배터리를 너무 많이 소모하지 않으면서 그립을 조이거나 풀 수 있는 로봇을 얻게 되었습니다. 이것이 여정의 절반이라면, 나머지 절반은 정말 흥미진진할 것입니다.
여러분은 Pi 0.5 기반 로봇에게 어떤 현실 세계의 집안일을 가장 먼저 맡겨보고 싶으신가요? 댓글로 의견을 남겨주세요!