위로가기 버튼

통계 그리고 대선

등록일 2017-05-08 02:01 게재일 2017-05-08 18면
스크랩버튼
▲ 김동찬<br /><br />김천대 교수
▲ 김동찬 김천대 교수

그동안 우리 인류는 미래에 대해서 제한적으로만 예측이 가능했다. 그러나 지금은 빅 데이터(Big Data) 시대이다. 지금으로부터 6년 전인 2011년 7월, 미국 캘리포니아주 산타크루즈시에서는 흥미로운 일이 벌어졌다. 경찰이 범죄가 발생할 곳을 예측해 미리 현장 인근에 출동했고, 실제 거기서 범죄가 일어난 것이다. 마치 톰 크루즈가 주연을 했던 영화 `마이너리티 리포트`의 한 장면과 같은 일이 실제로 벌어진 것이다. 뿐만 아니다. 2012년도 미국 아카데미 영화제 시상식에서 여우주연상은 `철의 여인`으로 영국 대처 수상을 연기한 메릴 스트립에게 돌아갔다. 작품상은 프랑스 무성영화 `아티스트`가 거머쥐었다. 흥미로운 것은 이같은 결과가 사전에 예측되었다는 점이다. 시상식 당일 IBM이 USC, LA타임스와 예상 수상작을 공개한 결과 예측이 정확히 들어맞았다. 실제 전 세계적으로 9억 명의 회원을 보유하고 있는 대표적 소셜 네트워크 서비스 업체 페이스북에는 하루 1억 건의 메시지와 한달 3억 건의 사진이 게시된다. 페이스북을 통해 좋아하는 이성의 나이, 직업 등의 신변 정보는 물론 생각, 자주 찾는 장소, 좋아하는 색상과 디자인, 갖고 싶어하는 의류, 자동차 브랜드, 최근 구매한 상품, 향후 구매를 원하는 상품, 같은 취향으로 연락을 주고받는 그룹을 파악하는 것은 그리 어려운 일이 아니다. 페이스북에 `우울하다` `열 받는다` `불안하다`는 담벼락 포스팅이 증가한 후 미국의 실업률이 증가했다. SNS에 부정적으로 언급되는 기업의 주가는 88% 이상 폭락했다.

기업이 필요로 하는 고객에 대한 중요 정보들은 이미 주워 담기 어려울 정도로 넘치고 있다. 빅 데이터 분석에는 통계학을 깊이 전공한 전문가들이 최신 빅 데이터 분석 프로그램과 컴퓨터 장비를 이용해야 가능하다. 빅 데이터의 특성상 처리해야 할 데이터 양이 방대하고 비정형 데이터 비중이 높아 처리 복잡도가 높다. 상업적으로 빅 데이터 분석을 하는 과정을 살펴본다면 방대한 데이터를 실시간에 처리하는 분석 기술로 비정형 문장들에 내포된 의미를 추출하며 추출된 정보 사이에 가정을 수립하는 텍스트 마이닝, 특정 서비스 및 상품에 대한 사용자의 의견을 판별하는 오피니언 마이닝, 입 소문의 중심인 사용자를 파악하는 소셜 네트워크 분석, 유사성이 높은 대상 집단과 타 군집에 속한 객체간의 상이성을 분석하여 새 사용자 그룹을 도출해내는 군집분석 등이 사용된다.

데이터 사이언스의 발달, 특별히 컴퓨터 네트워크와 통신 기술의 발달을 통해서 이전에는 불가능했던 분석이 가능해졌고, 이런 분석이 새로운 경쟁의 장을 열고 있다는 것이 이런 유행이 번지는 데 한몫을 하고 있다. 이번 대선에서도 각 정당의 후보 진영의 캠프가 글로벌 포털 구글과 국내 포털 네이버 가운데 어떠한 빅 데이터를 활용할 것인지에 따라 대선의 승패 예측이 판이할 게 달라질 수 있다. 여론조사 결과와 빅 데이터 분석 결과는 어떤가? 이미 뉴스를 통해 접해 보았겠지만, 기존 전화 여론조사 기관에서 발표하는 여론조사 결과와 빅 데이터 분석 결과 사이에는 아주 판이한 결과가 도출되고 있다. 최근 빅 데이터 분야의 전문가들의 의견을 들어보면, 이번 대선은 빅 데이터를 대선 판도 분석에 잘 활용한 캠프가 승리할 가능성이 높다고 보고 있다. 그 이유는 넘쳐나는 뉴스와 후보에 대한 관심도를 모두 취합해서 통계적으로 분석하는 길은 전화 여론조사가 아닌, 빅 데이터 분석을 통해서만 가능하기 때문이다. 유권자들의 성향이나 정치 인식, 그리고 표심이 나타내는 다양한 빅 테이터를 정확하게 읽어내고 적절하게 대응하는 캠프만이 이번 대선에서 승리할 수 있고 차기 대통령의 권좌에 앉을 수 있을 것이다.

김동찬칼럼 기사리스트

더보기
스크랩버튼