인공 지능(AI, Artificial Intelligence)과 기계 학습(ML, Machine Learning)은 2018년도 비즈니스 세계를 뒤흔들 핵심기술들이다. 모든 기업들이 지금 ‘AI 우선’ 전략을 취하고 있다. AI를 비즈니스에 삽입해서 새로운 가치를 부여하겠다는 의지이다. 고객과의 소통, 디지털 제조설계, 스마트 에너지 및 인프라, 자율주행 자동차, 사이버보안 관리, 컴퓨터 비전 그리고 음성 인식에 이르기까지 다양한 분야에서 AI는 이미 핵심적 역할을 하고 있다.

비즈니스 세계에서 AI의 역할은 크게 세 가지로 요약된다. 첫째는 새로운 비즈니스 모델을 만드는 고급 분석기술. 둘째는 사용자에겐 보이지 않지만 후면에서 돌아가는 고급 프로세스 자동화. 셋째는 인간처럼 음성대화로 고객의 상품검색이나 문제해결을 지원해 주는 지능형 가상비서이다. 사물이나 서비스에 지능형이란 표현을 붙일 수 있을 만큼 사실상 모든 기존 기술이 AI기술을 채택하고 있고 점차 완전히 새로운 기술로 탈바꿈해 갈 전망이다. AI가 시스템 속으로 스며들게 되면 컴퓨터는 입력된 데이터를 자동 분석해서 미리 정하지 않은 일이라도 유연하게 대응하고 자율적으로 대응하는 힘이 생긴다.

많은 사람들이 AI의 역할을 공상과학 영화의 한 장면처럼 초인적이고 초월적인 수준에 이르게 될 것이라고 우려하지만 기본적으로 AI는 사람이 다룰 수 있는 도구이다. 이를 명확히 이해하고 있어야 AI시대를 제대로 헤쳐 나갈 수 있다. 따라서 우선은 AI를 구성하고 있는 기법들에 대한 용어들을 이해할 필요가 있다. 용어가 서로 다른 이유는 의미의 차이가 있기 때문이다. 즉 서로 맥락이 다르다. 인공지능(AI)과 기계학습(ML) 그리고 데이터 마이닝(data mining)은 언뜻 비슷한 의미로 느껴지지만 그 맥락이 서로 다름을 이해하여야 한다.

 

‘데이터 마이닝’ – 다양한 관점에서 데이터를 분석해 의미 도출

‘데이터 마이닝’은 보유한 데이터를 다양한 관점에서 분석하고 그 결과를 유용한 정보로 조합하는 일을 가리킨다.

방대한 데이터 속에 숨어 있던 패턴과 상관성을 통계적 수법들로 식별해 내 가치를 부여한다. 데이터 마이닝은 숫자가 아닌 데이터도 처리한다는 점에서 통계처리와 구분된다. 예를 들면 프로축구 선수들의 패스, 어시스트, 골 등 숫자로 표현되는 데이터 외에도 게임 중 행하는 동작이나 역할들까지 선수의 가치로 환산해서 연봉 책정의 기준으로 삼는다. 데이터 마이닝이 관심을 끄는 이유는 방대한 양의 데이터 속에 감춰진 정보나 지식을 잘 도출해 내 널리 활용할 수 있기 때문이다. 이렇게 얻은 지식은 위험 관리, 비즈니스 관리, 생산 관리, 시장 분석, 시스템 설계 및 연구개발 등에 활용할 수 있다.

‘데이터 마이닝’ 기법에는 일반적으로 연관(association), 회귀(regression) 및 분류(classification)라는 세 가지 유형이 있다.

연관 분석은 주어진 데이터 세트에서 자주 발생하는 속성 값들을 연결해 주는 연관 규칙을 발견하는 일이다. 예를 들면 고객이 구매한 쇼핑 카트 내의 개별 상품간의 상관관계를 식별하는 경우에 사용된다.

회귀 분석은 독립 변수 분석을 통해 종속 변수가 무엇인지 밝혀내는 일에 사용된다. 예를 들면 어떤 상품의 예상판매실적을 주요 고객들의 소득 수준과 상품의 판매가격과의 상관관계로부터 예측하는 방법이다.

분류란 개체들을 여러 등급으로 나누는 모델이다. 의사결정 트리, 수학공식 또는 if-then 규칙 등이 사용된다. ‘데이터 마이닝’의 품질은 입력된 데이터의 품질에 따른다. 데이터 분류가 잘못되거나 부정확한 데이터는 그릇된 예측을 낳는다. ‘데이터 마이닝’은 이전에 발생했던 데이터의 추세에 의존한다는 점에서 응용에 한계가 있다. 지나간 사건을 기반으로 하므로 미래에 벌어질 새로운 추세를 진단하기엔 역부족이다.

 

‘기계 학습’ – 미래 사건의 결과를 예측하는 컴퓨터 프로그램

‘기계 학습’은 데이터 마이닝이나 기타 학습 알고리즘을 사용하여 지식을 추출하고 이를 경험기반으로 삼아 비슷한 상황의 미래 사건의 결과를 예측하는 컴퓨터 프로그램이다. 예를 들면 출퇴근 시간대에 발생하는 교통량 추세를 예측하는 일이나 아마존 사이트를 방문하는 고객의 사용자 경험을 예측하는 경우에 사용하는 프로그램이다. 기계 학습이나 데이터 마이닝은 데이터의 패턴을 발견하는 핵심 알고리즘이 동일하다. 그러나 데이터 마이닝과 달리 기계 학습에서는 기계가 데이터 모델의 매개 변수를 자동으로 학습한다. 기계 학습은 자체 학습 알고리즘을 사용하며 시간이 경과함에 따라서 경험을 축적하면서 작업 성능이 향상된다.

‘기계 학습’에서 데이터를 모델링하는 알고리즘은 여러 가지가 있으며 대부분은 지도 학습(Supervised learning), 지도받지 않는 학습(Unsupervised Learning) 그리고 강화 학습(Reinforcement Learning)의 세 가지로 분류된다. 이들 각각은 문제의 성격과 원하는 결과에 따라 또 상황에 따라 뚜렷한 장점을 가지고 있다.

지도 학습이란 입력 데이터와 원하는 출력값을 모두 제공하면서 기계를 훈련시키는 방법이다. 예를 들어 ‘고양이’를 기계가 인식하도록 가르치기 위해서 수천 장의 ‘고양이’ 이미지들을 기계에게 보여주면서 모두 ‘고양이’라고 알려주면서 동시에 ‘살쾡이’의 이미지도 보여주면서 이것은 ‘고양이’가 아니고 ‘살쾡이’라고 알려주는 방식이다. 기계는 입력된 다양한 ‘고양이’ 이미지로부터 ‘고양이’의 특징을 모델에 각인시키게 된다. 따라서 새로운 이미지가 주어졌을 때 그것이 ‘고양이’인지를 구별해 낼 수 있게 된다. 입력된 이미지 데이터가 많을수록 기계의 인식정확도는 높아진다. 이 방법은 많은 학습 데이터가 필요하며 훈련과정에 사람이 일일이 예측이 옳았는지 확인해 주어야 하므로 노동 집약적이고 시간이 많이 걸리는 단점이 있다. 특히 기계의 지식이 훈련되지 않은 분야로 확산될 가능성이 없다.

지도받지 않는 학습에선 데이터에 표식이 붙어 있지 않은 경우이다. 데이터 속에 어떤 의미가 숨겨져 있는지 정확히 모르는 경우에 사용한다. 이 방법이 성과를 내려면 정확한 답이 없어도 기계가 자체적으로 데이터 속의 패턴을 찾아내고 의미를 추론해야만 한다. 예를 들면 ‘고양이’ 이미지 수백만 장이 아무런 식별 없이 입력 데이터로 주어졌다고 가정해 보자. 기계는 이 이미지와 비슷한 이미지가 나오는 웹 페이지들을 수없이 조사해서 공통된 단어들을 간추리는 과정에서 이 이미지가 ‘고양이’이라는 단서를 발견해 낼 수 있다. 훈련과정에 사람이 개입하지 않아도 기계는 결국 ‘고양이’라는 이미지의 특징을 인식하게 되고 주어진 데이터에서 ‘고양이’만을 솎아낼 수 있게 된다. 초기에는 오류가 많을 수도 있고 발견해 낸 데이터의 패턴이나 모집단의 특징이 별 가치가 없을 수도 있다. 물론 이 학습방법이 기대했던 결과를 얻지 못할 수도 있지만 거꾸로 예상치 못한 경향을 발견해 낼 가능성도 존재한다.

강화 학습은 경험과 시행착오를 통해서 얻어진 데이터를 기반으로 모델을 지속적으로 개선하는 방식이다. 어떤 조치가 취해졌을 때 얻어진 성과의 크기에 등급을 매겨서 긍정적 또는 부정적인 점수를 부여한다. 이 알고리즘이 긍정적인 점수를 높이려면 입력치에 대한 시스템의 반응을 지속적으로 모델에 반영해 줘야 한다. 강화학습의 장점은 과거에 효과가 있었던 방법과 예전에는 해보지 않았던 전혀 새로운 방법을 섞어서 시도해볼 수 있다는 점이다. 알고리즘을 보면 새로운 작업이나 분류를 조금씩 증분하는 방식으로 미세한 변화를 시도하면서 자체적으로 데이터를 생성하고 이를 징검다리 삼아 또 다른 증분 단계로 옮겨가는 방식으로 누적된 변화를 시도하면 새로운 통찰력이나 일처리방법이 발견되곤 한다. 다만, 강화학습법은 실제 적용하기가 힘들고 개발자의 전문성이 높아야만 가능하다고 알려져 왔다. 하지만 구글 딥마인드(DeepMind)가 알파고 제로(AlphaGo Zero)를 강화학습법으로 훈련시켜 프로기사를 바둑에서 꺾는 데 성공했듯이 최근 들어서 많은 학자들이 다양한 강화학습법을 개발해 내고 있다.

 

‘인공지능’ – 인간 지능의 한 단면을 모방한 시스템의 추론 능력

‘인공지능(AI)’은 기계학습을 뛰어 넘는 분석기법으로 시스템에 추론 능력을 제공한다. 본질적으로 인간 지능의 한 단면을 기계가 모방하려는 시도이다. 지능형 시스템은 원시 데이터와 이질적인 데이터로부터 가설을 구성하고 데이터가 제공하지 못한 새로운 정보를 개발해 낸다. AI는 이전의 패턴이나 지도를 보지 않고도 추론을 통해 구성요소들과 사건 간의 관계를 밝혀낸다. 내가 어떤 표현을 다른 사람에게 했는데, 만약 그가 내가 한 말의 정확한 의미를 몰랐다면 그 사람은 그가 기억하고 있는 다른 사람들의 비슷한 표현들을 사례로 삼아서 내가 한말의 의미를 추측하고 가정하게 될 것이다. 이게 바로 추론의 본질이고 인공지능이 답을 구하는 방식이다.

우리는 기계학습이나 AI 알고리즘을 사용해서 미래에 어떤 일이 일어날지 예측할 수가 있다. 예를 들면 프로야구 경기가 끝난 후 관객들이 어디로 향해 갈지를 예측해서 경기장 인근의 식당들과 협력해서 가장 적절한 메뉴와 이벤트를 제안할 수 있다. 더 나아가 우리는 인공지능이 이미 알려진 사건들과 직접적으로 연관된 사건이 아닌 전혀 예상하지 못한 사건의 발생을 예측해 주길 바란다. 예를 들면 상품의 시험생산 동안에 발생했던 오류들과는 전혀 관계가 없는 새로운 형태의 오류가 실제 제품생산 과정에 나타나면 어떻게 해야 하는가? 이런 유형의 오류를 예전에 볼 수 없었다고 해도 여전히 그 불량원인을 해석하고 해결책을 제시해 줄 수 있는 기계지능이 필요하다. 기계학습은 경험하지 못한 오류의 원인을 밝혀내지 못하지만 인공지능은 추론을 통해 원인을 찾아낼 수 있다.

※이 칼럼은 해당 필진의 개인적 소견이며 삼성디스플레이 뉴스룸의 입장이나 전략을 담고 있지 않습니다.