지난 11월 2일(현지시각) 뉴욕 맨해튼. 구글이 올해 4월 오픈한 신규 오피스 ‘피어 57(Pier 57)’에서 흥미로운 로봇 조작 시연이 벌어졌다. 말로 “과자를 탑처럼 쌓아봐” 같은 명령을 내리면 로봇이 이를 이해해 작업을 수행하는 시연이었다.
현장에서 로봇이 다양한 명령에 반응해 즉시 과제를 수행할 수 있었던 건 ‘실시간으로’ 자연어(Natural Language, 일상생활에서 사용하는 언어)를 기계어로 번역해 주는 기능 덕분이었다.
자연어를 기계어로 번역해준다는 건 프로그래밍이 필요 없다는 뜻이다. 기계는 0과 1로 이뤄진 기계어로 외부 정보를 인식하는데, 이런 이유로 로봇을 조작하려면 프로그램 언어로 기계에 지시를 내려야 한다. 로봇 공학자들 역시 로봇을 개발할 때 이런 프로그래밍 과정을 거친다.
한데 이 로봇은 놀랍게도 구글의 대형(LLM, Large language model) 언어 모델 ‘PaLM(Pathways Language Model)’ 기반으로 스스로 코드를 만들어 자신의 동작을 제어했다. 실제로 프로그래밍 지식이 전혀 없는 일반인도 자연어로 명령을 내려 로봇이 특정 동작을 하도록 만들 수 있었다.
현장 시연을 담당한 앤디 쩡(Andy Zeng) 구글 선임 연구 과학자(Senior Research Scientist)는 “로봇이 (기계적 성능의 한계로) 특정 명령을 수행하지 못할 수는 있지만, 명령어 자체에는 제약이 없다”고 했다.
범용 로봇 시대 빨라진다
구글은 로봇 동작 제어를 위한 이 AI(인공지능) 언어 프로그램에 ‘정책으로서의 코드(Code as Policies, CaP)’라는 이름을 붙였다. 인간의 지시를 받아 로봇이 스스로 동작 제어 코드를 생성, 인간이 원하는 걸 이뤄줄 수 있다는 의미에서다.
이 프로그램의 가장 큰 장점은 로봇이 다른 작업을 수행하도록 만들기 위해 코드를 다시 쓸 필요가 없다는 점이다. 동일한 로봇이 블록 쌓기를 할 수도 있고, 쓰레기를 분류하는 일도 할 수 있다. 이는 인간의 언어를 이해하고 다양한 작업을 수행하는 범용 로봇의 시대가 더 빨리 도래할 수 있음을 암시한다.
구글이 공개한 CaP의 다른 시연 영상을 보면 실제로 로봇이 수십 가지의 서로 다른 명령을 수행하는 장면이 등장한다. 나무 블록을 특정 장소에 옮기거나 색깔이나 형태를 보고 해당 사물이 무엇인지(과일, 병 등) 인식해 종류별로 분류할 수 있으며 화이트보드 위에 그림을 그리거나 지우는 작업까지도 완벽하게 수행한다.
팔과 바퀴가 달린 로봇이 코카콜라 캔, 사과를 각각 재활용 쓰레기통과 일반 쓰레기통에 넣는 장면도 있다. 미국 IT 매체 테크크런치는 이에 대해 “실제 세계에서 발생하는 시나리오 기반으로 자체 코드를 계속 생성하는 시스템을 개발하기 위한 기초가 될 수 있을 것”이라고 평가했다. 기계적으로 복잡한 작업을 수행하게 만드는 일이 쉽지는 않겠지만, 인간의 언어를 기반으로 자체적으로 코드를 만들어 낼 수 있기 때문에 앞으로의 활용 가능성은 무궁무진할 수 있다는 분석이다.