인공지능의 탄생과 함께, 창의성은 인간만이 가지는 고유한 특성이라 믿었던 생각은 '고정관념'에 불과했음을 알게 되었습니다. 미켈란젤로가 말한 것처럼, 인식과 창작은 매우 밀접하게 연결되어 있으므로 과연 기계가 창의성을 가질 수 있는가, 하는 문제는 예전부터 꾸준히 제기된 질문이죠. 하지만 이제 AI와 인간의 협업은 우리 주변의 갤러리에서도 어렵지 않게 만나볼 수 있게 되었습니다. 이제는 질문이 바뀌고 있습니다. 인공지능은 사람의 도움이나 판단 없이 인간의 창조성을 뛰어넘는 그림을 그릴 수 있을까요?

글. MIT Technology Review 편집팀

알고리즘에서 출발한 인공지능 아티스트

▲ (1번) 스케치하는 알고리즘 ‘아론(AARON)’ (출처: Computer History Museum),(2번) 구글의 머신 러닝 ‘Deep dream’의 작품 (출처: Deepdream generator 홈페이지)

기계와 인간의 창작적 협업에 대한 논의는 1973년으로 거슬러 올라갑니다. 샌디에이고 대학교의 해롤드 코헨 교수는 이미지를 추상할 수 있는 알고리즘에 따라 그림을 그리는 ‘아론(AARON)’을 만들어 기계와 인간의 창작적 협업에 대한 이야기를 시작했는데요. 초기에는 아론이 스케치를 하면 해롤드 코헨 박사가 색을 칠했지만, 나중에는 색의 개수에 따라 명도의 차이를 알고리즘으로 만들어 프로그래밍하여 아론 스스로 색을 칠할 수 있게 되었습니다. 사람이 주제마다 프로그래밍을 해야 하는 단점이 있지만 해롤드 코헨 박사의 40년 간의 연구는 컴퓨터와 예술의 교차점에서 큰 주목을 받았습니다.

이후 기술적 진보가 이뤄진 2016년, 구글의 머신 러닝팀 디렉터인 블레이즈 아게라는 TED@BCG Paris에서 ‘딥 드림(Deep dream)’ 프로젝트를 소개했습니다. 본격적인 인공지능 아티스트의 출현이었는데요. 기계가 스스로 인식할 수 있다면 당연히 창작도 가능할 것이라는 대전제에서 출발한 이 프로젝트야 말로 인간과 인공지능이 예술의 경계를 두고 새로운 영역을 개척한 시도로 평가받았습니다. 

깜짝 놀랄 만큼 아름다운, 인공지능이 창작한 이미지

▲ 답: 모두 AI작품임

2021년 초, 미국의 인공지능 연구소 오픈AI(OpenAI)가 발표한 DALL-E는 다양한 개념을 활용해 새로운 방식으로 조합하는 이미지를 만들어 주위를 깜짝 놀라게 했습니다. DALL-E가 생성한 일련의 이미지들은 초현실적이고 만화 같기도 했지만 한편으로는 DALL-E라는 AI가 세상에 적응하고 있다는 사실을 보여주었습니다.

▲ 출처: DALL·E홈페이지

당시 DALL-E가 만든 ‘아보카도 안락의자 이미지’에는 아보카도와 의자의 기본적인 특징들이 모두 포함돼 있었습니다. 또한 DALL-E가 만든 ‘발레리나 치마를 입고 개를 산책시키는 무’는 허리에 발레리나 치마를 입고 손에 개 목줄을 잡고 있는 무의 모습이었습니다. 여기서 짚고 넘어가야 할 중요한 사실은 DALL-E가 무의 허리 부근에 발레리나 치마를 위치시켰다는 것입니다. 치마를 입는 부위가 허리이고, 무의 어느 부분이 허리인지를 판단할 줄 알았다는 뜻이지요.

디지털 아트, 인공지능을 갤러리로 초대하다 

▲(왼쪽) 매드 사이언티스트’처럼 스팀펑크 분위기로 반짝이는 화학물질을 조합하는 테디 베어들, (오른쪽) 모자를 쓰고 난로 옆에 옹기종기 모여 있는 쥐 가족을 담은 마이크로 35mm 필름 사진 (출처: DALL·E홈페이지)

지난 4월에 공개된 DALL-E의 후속 버전인 DALL-E 2는 복잡한 배경, 피사계 심도, 사실적 그림자 등 기존 버전보다 한층 업그레이드된 고해상도 이미지를 생성할 수 있습니다. 또한 이미지를 정교화하고, 편집하고, 변형하고, 특정 이미지를 대체할 뿐 아니라, 텍스트로 입력된 내용의 ‘맥락’을 유추해 이미지를 만들어 나가는 능력을 갖췄습니다.

DALL-E 2가 생성하는 이미지들은 깜짝 놀랄 정도로 훌륭합니다. DALL-E 2에 말을 탄 우주비행사 이미지, 테디베어 과학자 이미지, 베르메르(페르메이르) 스타일로 그려진 해달 이미지를 요청해 얻은 결과물들은 거의 ‘포토리얼리즘(photorealism)’에 가까운 품질을 자랑합니다.

▲ (왼쪽) 구글의 Imagen이 합성한 이미지, (오른쪽) DALL-E 2가 합성한 이미지 (출처: 구글 리서치 브레인팀)

구글 역시 지난 달 이미지 생성 인공지능인 ‘Imagen’ 을 온라인을 통해 공개했습니다.

입력된 문장을 이해해 정확도 높은 이미지를 생성하는 원리가 DALL-E 시리즈와 비슷합니다. 구글은 지난 4월 공개된 AI 언어 모델 중 가장 많은 매개변수(parameter, 5400억개)를 가진 ‘PaLM(Pathways Language Model)’을 공개하였는데요. 이런 강력한 언어 이해력 때문에 Imagen 역시 보다 정확한 이미지를 생성할 수 있다고 설명합니다.

▲구글 리서치 브레인팀이 공개한 AI로 만든 가상 이미지 (출처: 구글 리서치 브레인팀)

이 전에는 사람의 구체적인 명령을 인공지능이 실현하는 정도였다면, 지금은 사람이 추상적으로 가이드를 제시해도 인공지능이 이를 완성하고, 실현하는 단계에 이르렀다고 할 수 있습니다. DALL-E 2나 Imagen은 텍스트로 된 메시지가 입력되면 다음에 올 가능성이 가장 큰 내용을 예측해서 이미지를 생성했습니다.

해결해야 할 난제들은 무엇인가?

이미지 생성 AI 역시 해결해야 할 문제들이 있습니다. 종종 적절하지 않은 결과물을 내놓는다는 것입니다. 위에 예시로 공개된 이미지들 모두 동물과 연관돼 있다는 사실, 혹시 눈치채셨나요? 딥페이크(deep fake:다른 인물의 얼굴과 인체를 합성하는 것) 사용을 방지하기 위해, 이미지 생성 AI에 실제 사람의 이미지를 생성하라고 요청할 수 없기 때문입니다.

일반적으로 웹에서 수집되는, 선별되지 않은 대규모 데이터들을 바탕으로 학습이 이루어지다 보면 많은 문제가 발생할수 있습니다. 전문가들이 지적한 것처럼 이런 시스템은 인종 차별적이거나 성차별적인 이미지를 포함한 사회적 편견도 인코딩할 수 있습니다. 창의력이 아니라, 윤리적, 사회적 가치 판단의 문제 때문에 인공지능이 섣불리 나아갈 수 없는 상황입니다.

플랫폼에서 생성되는 이미지를 검토하고 분류하는 게이트 키퍼, 생성된 이미지를 공개할지 판단하는 기준도 여전히 인간의 윤리적 판단을 필요로 합니다. 예술에 가까운 뛰어난 성능에도 불구하고, 인간과의 협업, 선별 작업 없이도 과연 AI가 합성한 이미지를 활용할 수 있을지는 여전히 미지수인 셈입니다.