AI 스피커에 대한 열기가 뜨겁습니다. 구글(Google), 아마존(Amazon) 등 글로벌 IT 기업들은 물론 네이버, 카카오 등 국내 기업들도 저마다 제품을 출시하며 공격적인 마케팅을 펼치고 있습니다. '아이언맨' 영화에서 봤던 인공지능 음성 비서 서비스 ’자비스’가 어느새 우리 앞에 성큼 다가온 느낌입니다.

▲ 아마존의 AI 스피커 ‘에코’(출처 : 아마존)

글로벌 애플리케이션 분석업체인 버토 애널리틱스(Verto Analytics)에 따르면 아마존의 AI 스피커 '에코(Echo)'에 탑재된 '알렉사(Alexa)' 이용자가 지난해 80만명에서 올해 260만명으로 증가했습니다. 음성만으로 날씨, 음악 등 정보를 검색하고, 가전제품을 컨트롤하거나 온라인 쇼핑을 할 수 있다는 점이 AI 스피커의 인기 비결입니다.

 

AI 스피커의 핵심 기술, ‘빔포밍’과 ‘딥러닝’

AI 스피커는 사용자의 지시와 응답 모두 음성으로 이루어지기 때문에 음성인식, 자연어 처리, 음성 합성이 매우 중요합니다. 초기 AI 스피커 개발의 가장 큰 난제는 정확한 음성 인식이었습니다. TV 소리, 음악 등의 생활 소음에서 사용자의 명령을 정확히 인식할 수 있는지가 중요했지요.

▲ 7개의 마이크로 음성 인식 성능을 높인 아마존의 에코 (출처 : 아마존)

AI스피커를 가장 먼저 출시해 글로벌 시장에서 압도적 1위를 차지하고 있는 아마존 에코. 아마존은 멀리서 말하는 사용자의 음성을 정확히 잡아내기 위해 AI 스피커 '에코'에 무려 7개의 마이크를 넣었습니다. 사용자가 호출어인 '알렉사'를 말하면 에코는 여러 개의 마이크를 이용해 사용자의 위치가 있는 방향을 정확히 추정하고 거기서 나오는 소리에 빔 패턴을 편성해 증폭합니다. 여러 수신기의 위상차를 이용해 신호를 증폭시키는 빔포밍(beamforming) 기술을 이용한 것입니다. 이런 이유로 현존하는 AI 스피커는 호출어 발화 후 명령을 내리도록 설계되어 있습니다. 호출어를 말하지 않으면 스피커는 사용자가 어디에 있는지 정확히 알기 어렵습니다.

▲ 구글에서 출시한 ‘홈’(좌)과 애플에서 출시 예정인 ‘홈팟’(우) (출처 : 구글, 애플)

이론적으로는 마이크 숫자가 많을수록 더욱 정확한 음성정보를 추려낼 수 있지만, 하드웨어 설계상 가장 효율적인 마이크 숫자에 대해서는 의견이 분분합니다. 아마존 '에코'에 이어 시장점유율 2위인 구글 '홈(Home)'은 마이크 갯수가 2개입니다. 구글홈에 딥러닝을 적용해 소리가 들리는 위치를 파악하는 방법을 훈련시켜, 효과적인 음성 수집이 가능토록 했습니다.

아직 출시되지 않은 애플의 AI 스피커 '홈팟(Homepod)'은 마이크가 6개 들어간 것으로 알려져 있습니다. 네이버는 첫 AI 스피커인 '웨이브(Wave)'에는 4개의 마이크를 장착했으나, 휴대성이 강조된 두번째 스피커인 '프렌즈(Friends)'에는 2개의 마이크만 적용했습니다.

▲ 네이버에서 출시한 AI 스피커 ‘웨이브’(좌)와 ‘프렌즈’(우) (출처 : 네이버)

사용자의 음성이 스피커에 입력되면 그때부터 스피커 속 인공지능 플랫폼이 이를 문자화시키고 명령의 의미를 파악합니다. 아마존 '알렉사', 구글 '구글어시스턴트(Google Assistant)', 마이크로소프트 '코타나(Cortana)', 카카오 '카카오아이(Kakao I)', 네이버 '클로바(Clova)', 삼성 '빅스비(Bixby)'등이 모두 인공지능 플랫폼에 해당합니다. 이들 플랫폼들이 사실상 AI 스피커의 실체라고 할 수 있습니다.

AI 스피커 시장과 음성인식 분야가 급속도로 발전하게 된 이유 중 하나는 딥러닝(deep learning)에 있습니다. 인공지능 플랫폼들은 사람의 음파를 숫자화하고, 잘게 나눠 음향 스펙트럼으로 만듭니다. 그리고 딥러닝 학습을 통해 음향 스펙트럼의 패턴에서 문자와 단어의 맥락을 추론합니다.

사람의 언어를 기계적으로 분석하고 컴퓨터가 이해할 수 있는 형태로 가공하는 기술을 '자연어 처리 기술(NLP)'라고 합니다. 딥러닝 도입 이전의 자연어 처리는 단어 단위로 의미 분석을 해왔습니다. 그러나 딥러닝 알고리즘 도입 후에는 구문 단위의 분석을 통해 문장 전체의 의미를 추론할 수 있게 됐습니다. 이런 일련의 방법들은 현재 기계가 맥락이 포함된 인간의 다양한 일상적 언어 표현을 빠르게 습득하는데 있어 가장 효율적인 방법으로 손꼽히고 있습니다.

딥러닝을 이용한 음성인식 시스템은 분석한 음성 데이터가 많을수록 인식률이 좋아집니다. 알렉사나 구글어시스턴트는 AI 스피커 호출어인 '알렉사', '오케이 구글' 다음에 들어오는 음성을 받아서 명령을 처리하고 이를 클라우드에 저장하고 있습니다. 이 정보들은 더 유려한 언어감각을 가진 인공지능 플랫폼을 만드는데 유용한 데이터로 활용됩니다. 사람들이 많이 쓰는 스피커일수록 음성 데이터가 많이 쌓이는데, 이는 최근 AI 스피커를 만드는 업체들이 원가에 가까운 가격에 제품을 판매하는 배경이기도 합니다.

 

결국은 플랫폼 싸움... 국내 기업들 ‘전략적 제휴’ 활발

시장조사기관 가트너(Gartner)는 2016년 가상개인비서(Virtual Personal Assistant, VPA) 시장의 소비는 7억 2천만달러(8136억원)로 추산했습니다. 시장 규모는 2021년 35억 2천만달러(3조 9776억원)으로 확대될 것으로 전망하고 있습니다. 단순히 AI 스피커 뿐 아니라 그와 연계되는 시장까지 감안하면 시장 규모는 훨씬 확대될 것으로 보입니다. 시장조사업체 이마케터(eMarketer)는 2017년 3억 5600만명의 미국인들이 최소 한 달에 한번 음성으로 작동되는 장치를 사용할 것이라고 분석했습니다. 이는 2016년에 비해 128.9% 증가한 수치입니다.

현재 AI스피커는 집안의 전등이나, TV ON/OFF, 인터넷 쇼핑 주문, 음악 재생, 날씨 정보를 검색하는 정도입니다. 그러나 앞으로 사물인터넷 연계가 확장되면 AI 스피커는 그 구심점 역할을 할 것으로 기대돼, 주요 IT기업들이 자사의 플랫폼을 탑재한 인공지능 생태계를 만들고자 노력하고 있습니다.

실제로 70.6%의 시장 점유율을 차지한 아마존은 최근 AI 플랫폼인 알렉사 음성 서비스 관련 개발자 키트(Alexa Voice Service Device SDK)를 오픈 소스로 공개하며 생태계 확장에 나섰습니다.

▲ 하만의 AI 스피커 얼루어, 인보크, 링크(출처 : 하만)

가전 제조업체들은 다양한 가능성을 타진하는 모습입니다. 올초 하만은 ‘알렉사’, ‘코타나’, ‘구글어시스턴트’를 탑재한 AI스피커 ‘얼루어(Allure)'와 ‘인보크(Invoke), '링크(Link)’를 동시에 출시하기도 했지요.

▲ 카카오가 내놓은 AI 스피커 ‘카카오 미니’ (출처 : 카카오)

네이버, 카카오, 삼성전자 등 국내 기업들은 한국어 사용자들의 대표 AI 플랫폼이 되기 위해 기업 간 전략적 제휴를 맺는등 생태계 확장에 주력하고 있습니다. 카카오와 삼성전자는 지난 9월 음성인식 시장 활성화와 기술 시너지를 위해 AI 플랫폼 '카카오아이'와 '빅스비'를 연동한다고 밝혔습니다. 카카오톡 등 다양한 카카오의 서비스를 빅스비를 통해 이용할 수 있게 될 예정입니다.

AI 스피커들의 경쟁은 이제 막 시작되었습니다. 향후 더욱 확장될 Iot 세상, 그 주인공은 과연 누가 될지 귀추가 기대됩니다.