로봇이 강화학습을 통해 스스로 움직이는 법

산업 현장에서 로봇이 움직인다는 것은 단순한 보행이 아니라, 거친 노면 통과, 보강재 극복, 좁은 통로 통과까지 모두 포함하는 종합적인 문제다. 디든로보틱스는 사족보행 로봇과 이족 보행 플랫폼을 같은 학습 프레임워크와 같은 자체 하드웨어 위에서 함께 발전시키며, 모델 기반 제어와 학습 기반 제어를 결합해 산업 현장의 복잡 지형을 풀어 가고 있다. 산업 현장을 위한 Physical AI 기업 디든로보틱스의 Locomotion 파이프라인.

디든로보틱스의 사족보행 로봇과 이족 보행 플랫폼은 같은 학습 프레임워크와 같은 자체 하드웨어 위에서 함께 발전한다.

선박 내부는 사다리, 좁은 통로, 허리 높이의 보강재가 격벽 사이에 끊임없이 자리하고 있습니다. 이런 환경에서 ‘로봇’이 일하기 위해, 반드시 갖춰야 하는 능력이 하나 있습니다. 이 모든 지형을 직접 통과해 다음 작업 지점까지 도달하는 능력. Locomotion입니다.

이 글은 시리즈의 세 번째 편입니다. 1편 로봇의 눈을 만드는 법이 Perception을, 2편 로봇이 자기 위치를 찾는 법이 State Estimation을 다뤘다면, 이번 편은 그 두 축 위에서 로봇이 비로소 움직이기 시작하는 단계, Locomotion입니다.

산업 현장에서 움직인다는 것

Locomotion이라고 하면 흔히 보행만 떠올리지만, 산업 현장에서는 그보다 훨씬 넓은 개념을 다루고 있습니다.

  • 평평한 바닥을 걷는 일

  • 잔해물이 깔린 거친 노면을 미끄러지지 않고 지나가는 일

  • 허리 높이의 보강재를 넘는 일

  • 사람이 겨우 통과할 만한 좁은 통로를 빠져나가는 일

산업 현장의 Locomotion은 이 모든 것이 하나로 묶여 있습니다. 한 자리에서 안정적으로 서 있는 능력과, 복잡한 지형을 통과해 다음 작업 지점까지 이동하는 능력이 함께 갖춰져야 로봇이 비로소 현장에서 일할 수 있습니다.

산업 현장에서 이 문제가 더 까다로운 이유가 있습니다. 선박이든 건설 현장이든, 이런 공간은 모두 사람을 기준으로 설계되어 있습니다. 사람이 다니는 환경을 그대로 쓰면서 작업까지 해내려면, 로봇은 두 가지를 동시에 갖춰야 합니다. 어떤 자세에서도 무너지지 않는 안정성, 그리고 사람의 보폭과 비슷한 수준의 통과 능력입니다.

디든로보틱스가 사족보행 로봇과 이족 보행 플랫폼이라는 두 형태를 함께 발전시키는 것은 이 때문입니다. 사족은 자석발을 이용해 지면과 벽면을 자유롭게 오가며 작업하고, 이족은 사람을 위해 만들어진 인프라를 그대로 활용해 이동합니다. 형태는 다르지만 둘 다 같은 산업 현장을 향하며, 풀어야 할 문제 또한 같은 종류입니다.

 격벽과 보강재, 액세스홀이 반복되는 산업 환경에서 사족 및 이족 보행 로봇이 작업하는 모습을 그린 컨셉 렌더링.

격벽과 보강재, 액세스홀이 반복되는 산업 환경에서 사족 및 이족 보행 로봇이 작업하는 모습을 그린 컨셉 렌더링.

학습 기반 이동이 풀어야 할 3가지 문제

학습 기반 Locomotion을 산업 현장에 적용하려 할 때, 디든로보틱스는 세 가지 핵심 문제를 정의합니다.

Problem 1 - “잘 움직인다”가 무엇인지부터 모릅니다. 

사람은 “사뿐사뿐 걸어라”, “흔들리지 말고 걸어라”는 말을 알아듣지만, 로봇에게는 보상과 함께 그 말을 수학적인 언어로 번역해 주어야 합니다. 명령 속도를 잘 따라가는가, 보행 주기에 맞춰 발을 들고 있는가, 발 궤적이 일관되는가, 미끄러지지는 않는가. 사람의 직관을 수학적인 점수 체계로 옮기는 일 자체가 첫 번째 문제입니다.

Problem 2 - 시뮬레이션과 실제 사이에 간극이 있습니다. 

학습은 빠르게 반복할 수 있는 시뮬레이션 안에서 진행하지만, 로봇이 작동해야 하는 곳은 실제 물리 세계입니다. 시뮬레이션에서 가정한 마찰계수, 모터의 미세한 유격, 자석의 흡착력, 기구부의 처짐. 이 요소들이 실제와 조금만 달라도, 시뮬레이션에서 잘 움직이던 로봇이 현장에서는 흔들리게 됩니다. 디든로보틱스가 sim-to-real 문제라고 부르는 것이 바로 이 제어 전이의 간극입니다.

Problem 3 - 데이터가 부족합니다. 

평지 보행 정도는 시행착오를 충분히 반복하면 학습할 수 있지만, 보강재를 넘거나 액세스홀을 통과하는 고난도 동작은 처음부터 잘 해내는 학습 결과를 얻기가 어렵습니다. 보상이 잘 들어오는 데이터를 모으는 일 자체가 어렵고, 모아도 학습에 충분한 양에 도달하기까지 시간이 걸립니다.

디든로보틱스의 솔루션: 모델과 학습 모두, 사족과 이족을 함께

디든로보틱스는 이 세 문제를 동시에 풀기 위해, 모델 기반 제어와 학습 기반 제어를 결합한 파이프라인을 만들고 있습니다. 그리고 이 파이프라인은 사족과 이족 양쪽에서 동시에 작동합니다.

Solution 1 - 사람의 직관을 보상으로 번역한다

강화학습의 출발점은 단순합니다. 로봇에게 일일이 규칙을 알려주는 대신, 무엇을 잘 했을 때 점수를 주고 무엇을 못 했을 때 점수를 깎을지를 정의해 두는 것입니다. 행동을 결정하는 액터(Actor)와 그 행동의 가치를 평가하는 크리틱(Critic)을 함께 학습시키며 정책을 다듬어 갑니다. 디든로보틱스는 여기에 두 가지 장치를 더합니다.

  • Adaptive Gait Period — 명령 속도가 변해도 보폭이 일관되게 유지되도록 만든다.

  • Curriculum Learning — 처음부터 가장 어려운 지형을 학습시키지 않고, 낮은 단계부터 차근차근 난도를 올린다.
    (사람이 운동을 배울 때 기초부터 단계적으로 난도를 높이는 방식과 같습니다.)

사족보행 로봇의 Adaptive Gait Period(왼쪽)와 Curriculum Learning(오른쪽) 시뮬레이션

사족보행 로봇의 Adaptive Gait Period(왼쪽)와 Curriculum Learning(오른쪽) 시뮬레이션

Solution 2 - 시뮬레이션과 실제의 간극을 실측으로 좁힌다

두 번째 문제의 해결방안은 디든로보틱스가 하드웨어부터 자체 설계한다는 사실에서 출발합니다. 외부 부품으로 로봇을 만들면 사양서의 이론값에 의존할 수밖에 없지만, 자체 개발한 구동기와 자석발은 실측이 가능합니다. 

디든로보틱스는 모터의 유격이 실제로 얼마인지, 자석에 전류를 흘렸을 때 흡착력이 어떻게 변하는지, 철판 표면의 마찰계수가 어느 정도인지를 직접 측정해 시뮬레이션 환경에 반영합니다. 실측으로 보정된 시뮬레이션 위에서 학습한 정책은, 시뮬레이션에서 잘 움직이던 그 모습 그대로 실제 로봇에서도 작동합니다.

Solution 3 — 시범을 따라 배우고, 그 너머로 나아가는 두 단계 학습

세 번째 문제는 데이터를 새로 모으는 대신, 이미 확보한 데이터를 두 단계로 나누어 활용하는 방식으로 해결합니다.

먼저, '모션 추종 강화학습'을 통해 기본기를 쌓습니다. 디든로보틱스는 모델 기반 제어 알고리즘이나 원격 조종으로 확보한 고난도 동작 데이터를 보유하고 있습니다. 이 데이터에서 관절의 위치와 속도 정보를 추출하여 학습의 입력값으로 활용합니다. 이 단계에서는 확보된 데이터가 로봇이 취해야 할 관절 각도와 위치(기구학)를 제공하며, 모션 추종 학습을 통해 이를 실제 동작으로 구현합니다. 마치 숙련자의 시범을 보고 동작의 궤적을 익히는 과정과 같습니다.

다음으로, 그 위에 'Off-policy 강화학습'을 얹습니다. 시범을 복제하는 수준을 넘어, 물리적 효율성을 극대화한 최적의 동작을 찾는 단계입니다. 이때 모델 기반 제어에서 도출된 토크(Torque) 데이터를 강화학습의 액션(Action)으로 등가 변환하여 학습 재료로 사용합니다. Off-policy 방식은 과거의 경험이나 다른 알고리즘이 생성한 데이터, 심지어 실패한 데이터까지 모두 학습에 활용할 수 있어 데이터 효율이 비약적으로 높습니다.

이처럼 단계적인 결합을 통해 데이터 부족 문제를 해결함과 동시에, 실제 로봇 적용 시 발생하는 학습 안정화 과제까지 극복하며 사족보행 로봇의 실기 학습을 성공적으로 수렴시키고 있습니다.

이족 보행 플랫폼이 시뮬레이션 안에서 점프, 단거리 질주, 보강재 극복, 웅크려 걷기 등 다양한 모션을 학습하는 모습. 

이족 보행 플랫폼이 시뮬레이션 안에서 점프, 단거리 질주, 보강재 극복, 웅크려 걷기 등 다양한 모션을 학습하는 모습. 

지형에 강건한 보행

여기까지 만들어진 파이프라인이 디든로보틱스의 보행을 다른 로봇과 구분 짓는 핵심은, 지형에 대한 강건성입니다. 시뮬레이션의 평평한 환경이 아니라, 용접 잔해물이 깔린 거친 노면이나 보강재가 반복되는 복잡 지형에서도 학습된 정책이 안정적으로 작동합니다.

사족과 이족 두 플랫폼은 디든로보틱스가 자체 설계·제작한 동일한 액추에이터 모듈 위에서 만들어집니다. 두 로봇은 같은 하드웨어 위에서, 모션 추종 강화학습과 Off-policy 강화학습으로 이어지는 동일한 학습 파이프라인을 거치며 함께 발전합니다.

같은 박자로 진화해 왔다

이 파이프라인은 단번에 만들어진 것이 아니라, 한 단계씩 차곡차곡 쌓아 올린 결과입니다.

처음에는 시뮬레이션 안에서만 작동했습니다. 그 안에서 로봇이 무부하 상태로 액세스홀을 극복하는 것이 출발점이었습니다.

다음 단계에서는 학습 기반 보행이 실제 환경으로 넘어왔습니다. 용접 공정에서 발생하는 스패터(금속 잔해물)가 깔린 거친 노면 위에서도 사족보행 로봇이 미끄러짐 없이 안정적으로 걷는 모습이 확인됐습니다. 사족 로봇에는 모델 기반 제어로 만든 고난도 동작 데이터를 강화학습이 그대로 따라가도록 한 새로운 학습 방식이 도입됐고, 같은 흐름 안에서 이족 보행 플랫폼도 사람의 인프라와 호환되는 휴머노이드 보행에 성공했습니다.

용접 공정에서 발생하는 스패터(금속 잔해물)가 깔린 거친 노면에서도 사족보행 로봇이 안정적으로 보행하는 시뮬레이션.

용접 공정에서 발생하는 스패터(금속 잔해물)가 깔린 거친 노면에서도 사족보행 로봇이 안정적으로 보행하는 시뮬레이션.

가장 최근에는 자체 구동기가 한 세대 더 진화했습니다. 새 구동기와 신규 모터보드가 양쪽 플랫폼에 동시에 적용된 것입니다. 모션 추종 강화학습은 시뮬레이션을 넘어 사족 로봇의 실기 제어에까지 적용됐습니다. 그 결과, 외력이 가해지거나 시작 위치가 바뀌어도 학습된 정책이 모션을 강건하게 추종합니다.

이족 보행 플랫폼은 단 3개월 만에 자체 하드웨어 개발부터 보행 제어까지 마쳤고, 그 위에서 두 발 보행이 안정적으로 작동합니다. 선박 내부의 액세스 홀 통과 능력 역시 한 단계 진화해, 더 좁은 규격의 통로까지 통과할 수 있게 됐습니다.

신규 모터보드를 탑재한 이족 보행 플랫폼이 두 발로 균형을 잡고 보행에 성공한 모습.

신규 모터보드를 탑재한 이족 보행 플랫폼이 두 발로 균형을 잡고 보행에 성공한 모습.


요약하면 이런 흐름입니다. 

사족과 이족을 위한 자체 구동기 개발
→ 실제 하드웨어 스펙을 시뮬레이션에 넣어 보행 학습
→ 같은 하드웨어로 실환경 보행 테스트
→ 실제 환경 데이터 수집 및 학습에 재활용

자체 하드웨어와 자체 학습 프레임워크가 같은 박자로 진화해 왔다는 점이, 두 플랫폼의 이동 능력이 함께 한 단계씩 올라설 수 있었던 배경입니다.

다음 단계: 시뮬레이션 밖으로

다음 단계에서는 무게 중심이 시뮬레이션 밖으로 옮겨갑니다. 

가까운 시일 내에 실제 선박 환경 안에서 보행 테스트가 예정되어 있습니다. 학습된 정책이 실험실의 평평한 발판이 아니라 실제 선박 환경에서 어떻게 동작하는지를 확인하는 단계입니다. 같은 흐름 안에서 이족 보행 플랫폼은 하체와 상체가 통합된 전신 형태로 발전하고, 학습 파이프라인은 액세스홀 통과까지 강화학습으로 풀어내는 방향으로 확장됩니다.

여기서 디든로보틱스는 한 단계 더 나아가, 보행을 두 계층의 정책으로 나누어 더 지능적으로 움직이는 방향을 준비하고 있습니다.

  • 상위 계층 정책 — Perception 정보를 바탕으로 다음에 어떤 발을 어디에 어떻게 옮길지를 추론해 모션을 생성한다.

  • 하위 계층 정책 — 상위 계층이 생성한 모션을 로봇이 안정적으로 추종하도록 제어한다.

두 계층이 분리되면 같은 하드웨어 위에서도 더 정교하고 지능적인 보행이 가능해집니다.

선박이라는 첫 번째 시장 너머에도 또 다른 산업 현장들이 기다리고 있습니다. 사람의 동선과 시설을 그대로 활용해야 하는 제조, 물류, 시설 관리 같은 환경입니다. 디든로보틱스가 사족과 이족을 같은 호흡으로 발전시키고 있다는 점이, 결국 로봇이 가닿을 수 있는 산업의 폭을 결정짓습니다.

Perception이 만든 로봇의 눈, State Estimation이 만든 자기 위치 감각 위에서, Locomotion은 비로소 로봇을 한 자리에 머물지 않게 만듭니다. 하드웨어 설계부터 환경 인식, 자기 위치 추정, 사족과 이족 양쪽의 이동 제어까지 전 스택을 자체 역량으로 쌓아 올리는 것이, 산업 현장을 위한 Physical AI 기업 디든로보틱스가 현장에서 작동하는 로봇을 만드는 방법입니다.

대한민국

©Copyright DIDEN Robotics. All Right Reserved

이용약관

|

개인정보처리방침

|

법적고지

|

이메일무단수집거부

(주) 디든로보틱스

|

대표자 : 김준하

|

문의 : diden@didenrobotics.com / TEL 02-6959-0642 / FAX 02-6959-0643

|

서울특별시 성동구 아차산로17길 49, 401, 402, 409, 410호 (04799)

|

사업자등록번호 : 867-87-03056

DIDEN ROBOTICS