세계적 규모의 금융위기가 일어나면 확률로 보아 수만 년에 한 번 있을 만한 일이 생겼다고도 한다심지어 1987 10월 미국에서 있었던 금융상품의 가격 폭락 사태에 대해 전문가들은 그런 규모의 대폭락이 일어날 확률이 10 160승 분의 1이라고 추정하기도 하였다.

그런데 놀라운 점은 그런 대규모 금융위기가 겨우 지난 몇 십 년 동안만 하더라도 여러 번 일어났다는 사실이다. 1987년 가을미국을 비롯한 여러 나라에서 주식가격이 폭락했던 날은 10월 19월요일이었으므로 사람들은 지금도 그날을 ‘블랙 먼데이라고 부르고 있다.

그런데 그게 마지막이 아니었다. 1998년에는 ‘롱텀 캐피털 매니지먼트라는 펀드 회사가 무너졌는데 사람들은 그런 일이 일어날 확률을 나타내려면 1이라는 숫자 뒤에 0이 무려 스물세 개나 붙은 엄청나게 큰 수가 필요하다고들 했다그걸로 끝이었을까아니었다그보다 더 큰 위기가 오는 데 수만 년을 기다릴 필요는 없었다겨우 10년 뒤인 2008년이 되자 미국의 투자 은행 리먼브라더스가 파산했고 금융위기가 전 세계를 휩쓸었다.

수만 년수십만 년에 한 번 일어난다는 대형 사고가 이렇게 자주 일어나다니세계 금융시장에 중대한 변화가 생긴 걸까아니면 확률 계산에 무슨 심각한 문제가 있었던 걸까여러 이유 가운데 확률 계산에 문제가 있다고 생각한 사람들이 집중적으로 비판한 것이 금융상품의 가격이 정규분포를 따를 것이라는 가정이었다.

가우스분포라고도 불리는 정규분포

정규분포는 무엇일까정규분포는 확률과 통계학에서 자주 등장할 뿐 아니라 여러 곳에서 매우 중요한 역할을 한다이 분포는 영어로는 ‘normal distribution’이라고 부르고 우리말로는 ‘정규분포라고 번역한다또한 가우스분포(Gaussian distribution)’라고도 불린다.

물론 여기서 가우스란 19세기 독일의 수학자 가우스(C. F. Gauss, 1777-1855)를 말한다당시에 유통되던 독일의 10마르크짜리 지폐에 가우스의 얼굴이 들어있다지폐에 있는 가우스의 얼굴 왼쪽을 확대해보면 산봉우리처럼 보이는 둥그런 곡선과 함께 희랍어 문자까지 들어있는 수식이 또렷이 보인다정규분포의 ‘확률밀도함수라고 불리는 수식이다.

어쨌든 통계학에서 가장 중요하다는 확률 분포의 이름이 그렇다 보니 많은 사람들이 정규분포를 처음 만든 사람이 가우스일 것이라고 생각한다확률이나 통계학을 설명하는 책들 가운데 그렇게 설명하는 책들도 제법 많다그런데 이것은 정확한 설명이 아니다가우스가 태어난 해는 1777년으로서 프랑스 출신으로 영국에서 살았던 드 무아브르(A. de Moivre, 1667-1754)라는 수학자가 정규분포를 나타내는 수식을 유도해낸 지 40년도 더 지난 후였다즉 가우스가 태어나기도 전에 정규분포는 이미 세상에 나와 있었던 것이다.

오차 분포로서의 정규분포

가우스가 만들지 않았는데도 정규분포를 가우스분포라고 부르는 이유는 무엇일까당시 천문학 등에서 나온 데이터를 분석하는 사람들은 오차의 분포 문제로 고심하고 있었다관측 장비나 방법이 덜 발달한 시기에 나온 데이터에는 다양한 관측 오차들이 들어있었다.

따라서 당시 사람들은 같은 현상을 여러 번 반복 관측해서 보다 정확하고 신뢰할 만한 값을 얻으려 하였는데 이때 필요한 것 중 하나가 오차의 분포였다그들은 반복 관측한 데이터들의 분포가 높은 봉우리를 중심으로 좌우 대칭 모양이어야 한다고 생각했다.

그런 분포는 동전을 반복해서 던질 때에도 나올 수 있다가령 동전을 열 번 던져서 앞면이 나온 횟수를 기록하는 실험을 여러 번 한다고 해보자아마 던진 횟수의 절반 5 주위의 값이 많이 나오고 5에서 먼 값들은 덜 나올 것이다동전을 던지는 횟수를 50, 100회 등으로 늘이면 앞면이 나오는 횟수의 분포는 점점 대칭 모양의 부드러운 곡선에 가까워질 것이다.

그 곡선을 나타내는 수식을 유도한 사람이 바로 드 무아브르였다즉 정규분포 수식은 확률분포의 근사식을 구하는 과정에서 나왔던 것이다.

이후 정규분포는 19세기 초라플라스와 가우스 덕분에 확률이론과 통계학에서 대단히 중요한 자리를 차지하게 된다그들은 천문 관측 오차의 분포를 나타내는 데 정규분포를 쓸 수 있는 이론적 근거를 제공했고 그 덕분에 정규분포는 오랫동안 오차분포오차법칙 등으로 불렸다.

이렇게 19세기와 20세기를 지나면서 정규분포는 자연과학뿐만 아니라 다양한 사람들이 모인 사회정치경제 등 거의 모든 분야에서 쓰이게 된다.

롱테일의 법칙꼬리가 길면 밟히는 게 아니라 사업이 번창한다

▲ 롱테일 법칙 (출처네이버 지식백과)

모든 확률 분포는 정규분포를 따를까하나의 동전과 달리 서점에서 팔리는 다양한 종류의 책을 판매량에 따라 나열했다고 해보자대개 베스트셀러 목록에 오른 책은 종류가 그리 많지는 않지만 그 책들이 전체 판매량에서 차지하는 비중은 꽤 클 것이다나머지 책들의 경우 팔리는 양은 적어도 책의 종수는 많을 것이다.

따라서 서점에 있는 모든 책에 대해 분포를 그린다면 오른쪽으로 꼬리가 길게 늘어진 모양이 될 것이다그리고 그 모양은 가운데 봉우리를 중심으로 대칭 모양인 정규분포와는 매우 다를 것이다흔히 이런 곡선을 꼬리가 긴 분포즉 롱테일이라고 부른다.

다들 잘 알다시피 아마존은 1994년 미국에서 온라인 서점으로 시작되어 세계적인 규모로 성장한 기업이다전통적인 오프라인 서점에서는 몇몇 베스트셀러들이 나머지 다수의 책들보다 훨씬 중요하기 때문에 고객의 눈에 잘 띄는 곳에 진열해 둔다전통적인 마케팅에서는 기다란 꼬리보다는 조그마한 머리가 훨씬 중요했던 것이다.

그런데 인터넷은 그와 같은 통념을 뒤집어 놓았다인터넷서점은 공간의 제약을 거의 받지 않고 거의 모든 책을 갖춰놓을 수 있기 때문에 오프라인 매장의 한계를 넘어설 수 있었다종류는 많지만 찾는 사람이 적어서 판매 부수가 낮은 책들이 바로 롱테일에 해당한다이처럼 소비자의 선택권을 넓혀주는 롱테일은 마케팅 분야뿐 아니라 사회와 문화 여러 곳으로 널리 확산되었다.

그렇다면 통계학 책에서 롱테일 분포로 흔히 거론되는 지프의 분포파레토 분포 등도 인터넷이 널리 쓰이고 나서 등장했을까그렇지 않다가령 지프 분포는 미국의 언어학자인 지프(G. K. Zipf, 19021950)의 이름을 딴 것인데언어에서 많이 사용되는 단어의 순위와 그 사용빈도 사이의 관계를 나타내기 위한 분포이다백만 개가 넘는 수많은 영어 단어 가운데 가장 많이 쓰이는 단어는 the, of, and 등이라고 한다.

그런데 이런 단어들은 전체 단어 가운데 극히 일부에 지나지 않아서 겨우 135개 중요 단어의 사용빈도만 헤아려도 절반에 달한다고 한다즉 단어들의 사용빈도는 아주 긴 꼬리를 갖는 롱테일 분포를 따르는 셈이다.

이처럼 책 판매량그리고 언어학까지 통계학이 활용되는 영역은 놀라울 정도로 넓으며 롱 테일의 사례에서 보듯 시대변화에 따라 그 영역은 계속 넓어지고 있다.

코로나19와 같은 상황을 예측하기 위해서는?

사회나 경제현상그리고 감염병과 같은 현상을 설명하고 예측하는 데에는 데이터에 바탕을 둔 통계학적 모형이 널리 쓰인다대부분의 통계학적 모형은 과거를 보면 미래를 알 수 있다는 가정 또는 희망을 바탕에 깔고 있다그런데 만일 자고 일어나 보니 갑자기 세상이 어제까지의 세상과 다르다면?

2019년 겨울부터 코로나-19 때문에 온 세계가 큰 고통을 겪을 것이라고 미리 예측한 전문가는 사실 아무도 없었다데이터와 통계학 전문가들 역시 마찬가지였다어느새 코로나-19의 감염자 수나 그로 인한 피해 정도는 모두의 예상을 훌쩍 넘어섰다.

함께 비교해볼 과거의 데이터가 많아야 적절한 대비책을 마련하고 언제 일상으로 돌아갈 수 있을지 예상할 수 있을 텐데 그럴 수가 없는 것이다심지어 지금까지 우리가 비정상이라고 여겼던 특수한 상황이 일반적인 정상이 되는 시대가 왔다고 말하는 사람들도 있다.

그렇다면 평범하게 지속되는 세상을 전제로 한 정상분포정규분포의 위력도 곧 과거의 유물이 되고 마는 걸까지금 전망하기는 어렵지만 만일 가우스가 21세기를 살고 있다면 무엇을 연구할지 짐작해볼 수는 있겠다아마 그는 동일한 조건에서 나온 데이터들을 가지고 정규분포를 연구하는 대신아주 드물게 일어나거나 아직 일어난 적조차 없는 미래의 대규모 재난을 예측하기 위해 컴퓨터와 씨름하고 있을 것 같다.

※ 이 칼럼은 해당 필진의 개인적 소견이며 삼성디스플레이 뉴스룸의 입장이나 전략을 담고 있지 않습니다.