넛지 4차 산업혁명/빅데이터

빅데이터(3) : 빅데이터 분석

Que sais 2020. 11. 2. 12:09

youtu.be/eSCSvcBh9PQ

<빅데이터 분석>

빅데이터가 효과를 나타내려면 해당 데이터를 분석하고 처리함으로써 기존의 데이터에서 볼 수 없었던 새로운 의미산출해내어야 한다. 이러한 빅데이터의 효용성은 수많은 데이터에서 사용자에게 유용한 정보를 제공해야만 가능하다. 즉 엄청난 양의 정형적인 데이터 소스 내에서 외부로 새로운 가치창출할 수 있는 데이터를 얻을 수 있느냐이다.

이를 위해 축적된 데이터를 갖고 분석할 데이터가 무엇인가를 파악하고 이를 효율적으로 해결하기 위해 등장한 것이 마이닝(mining) 기법이다. 빅데이터에서 마이닝은 데이터마이닝(data mining), 텍스트 마이닝(text mining), 웹마이닝(web mining), 소셜마이닝(social mining) 등이 있으며 이를 통해 현실 마이닝(reality mining)에 도착토록 한다.

다양하고 방대한 규모의 데이터를 분석하여 의미있는 정보를 찾아내는 시도는 예전에도 존재했다. 그러나 현재의 빅데이터 환경은 과거와 비교해 데이터의 양은 물론 질과 다양성 측면에서 완전히 다르다. 데이터 분석빅데이터 세상 이전부터 인간들이 사용해 온 방식으로 생소로운 것은 아니다. 그러므로 빅데이터 이전에도 각종 데이터효율적으로 활용하는 방법으로 다음 6단계를 활용했다.

 

문제 인식

분석은 자신이 하고 있는 업무나 관심을 갖고 있는 분야에서 문제점을 찾아내고 그것을 해결하려는 것이다. 문제의 인식 단계에서 무엇이 문제가 되고 왜 이 문제를 해결해야 하는지, 문제 해결을 통해 무엇을 얻을 것인지 등을 명확히 한다.

 

관련 연구 조사

문제와 직간접적으로 관련된 정보조사하여 문제를 보다 명확하게 정하는 단계. 특히 문제와 관련된 주요 변수들을 파악하는 것도 중요하다. 모든 문제 해결은 무에서가 아니라 유 즉 관련 자료에서 시작되므로 수집된 자료로부터 문제와 관련된 변수를 뽑아낸다.

 

모형화(변수 선정)

모형은 문제를 의도적으로 단순화한 것을 말하므로 문제와 본질적으로 관련된 변수만 추려서 재구성하는 것이다. 문제가 갖고 있는 특성의 주요 요소를 기본으로 주요 변수분석한다.

 

자료 수집(변수 측정)

변수가 선정되면 그 변수들을 측정한다. 자료는 변수들의 측정치를 모아 제기된 문제를 모형화를 통해 주요 변수재구성하고 측정하여 자료로 제공한다.

 

자료 분석

자료를 통해 규칙적인 패턴변수 간의 관련성을 파악한다.

 

결과 제시

자료 분석을 통해 변수 간의 관련성이 파악되면 그 결과가 의미하는 바를 해석해서 이를 보고서로 제출한다. 보고서에는 대안제시가 필수로 명확한 대안 제시가 없다면 효용도가 떨어진다.

 

초기에 기업들은 빅데이터 솔루션같은 단순한 서비스 마케팅으로만 이해하여 데이터의 사이즈, 대용량 데이터 자체로 의미를 부여하여 빅데이터의 본질을 놓쳤다. 그러나 데이터 분석이야말로 기업의 운명을 좌우하는 결정적 요인이라고 인식하기 시작하자 세계적인 기업은 모두 빅데이터를 활용하는데 게을리 하지 않는다.

<이코노미스트>가 전 세계 약 600개 기업을 대상으로 실시한 빅데이터에 관한 조사에서 대상자의 10%는 빅데이터가 기존 비즈니스 모델을 완전히 바꿀 것이며, 46%는 기업 의사결정의 중요한 요소로 작용할 것으로 응답했다.

빅데이터라는 개념은 인터넷이 본격적으로 활성화되기 이전부터 알려진 내용이다. 사실 많은 산업체 경영진들은 회사를 경영할 때 직관을 따르는 것보다는 데이터를 활용하는 것이 훨씬 유리하다는 사실을 발견했다.

문제는 막상 이를 실무 현장에 도입하는 것은 간단한 일이 아니라는 점이다. 우선 필요한 데이터를 확보하는 것이 만만치 않고 설사 확보했다고 해서 반드시 성공한다는 보장이 되는 것도 아니기 때문이다.

 

머니볼

다소 어정쩡한 상황에 빅데이터가 매우 요긴하다는 것을 적나라하게 보여준 것은 놀랍게도 미국 프로야구에서 등장한 머니볼(moneyball)' 이론이다. 미국 메이저리그 오클랜드 애슬레틱스빌리 빈(William Lamar Beane) 단장이 주장한 이론으로 야구선수 출신인 선수의 연봉 계약에 이용되는 기존의 선수 평가 방식에 문제가 있다고 생각했다.

단적으로 자신이 메이저리그에서 가장 촉망받는 유망주로 알려졌지만 선수로서는 실패했는데 그것은 선수들을 평가하는 방식에 문제가 있었기 때문이라는 것이다. 그는 선수 경험을 볼 때 홈런이나 타율이 높은 타자중요하지만 일단 1루에 출루해야 득점의 기회가 있으므로 출루율높은 타자가 경기를 승리로 이끄는데 매우 중요하다고 강조했다.

그가 구단의 단장이 되었을 때 오클랜드는 메이저리그 구단 중 꼴찌에서 3번 째열악한 재정 형편 때문에, 연봉이 높은 선수들을 마음껏 확보할 수 없었다. 그러므로 그는 하버드대학교에서 경제학을 전공한 폴 데포데스터(Paul DePodesta)를 영입해 타율, 홈런, 도루는 적지만 출루율이 높은데도 저평가된 선수저렴한 연봉으로 데려와 팀을 꾸렸다. 한마디로 저비용고효율 구조로 야구단을 재창조했는데 놀랍게도 1990년대 이후 만년 꼴찌인 오클랜드로 하여금 200220연승을 비롯하여 5번의 포스트시즌 진출이라는 돌풍을 일으켰다.

 

Think Different되지 않는 볼넷을 포함하여 타자가 성공적으로 베이스를 밟은 횟수의 비율, '장타율'은 타수마다 밟은 총 베이스를 계산해서 타격력이 얼마나 강한지를 나타내는 비율이다. 출루율과 장타율 못지 않게 '타수'는 한두 경기에서 낸 성적이 아닌, 수천 번의 타석에 들어 좋은 성적을 만들어낸 선수를 선별하기 위한 기초 통계자료이다.

빌리빈의 생각은 간단하다. 인생확률 게임이라 볼 수 있는데 야구에서 3할 타자강타자이고 25평범한 타자로 인식하는데 이 차이는 5퍼센트에 지나지 않는다는 점이다. 빌리빈은 이 5퍼센트의 차이는 안타를 치든 포볼을 얻든 진출하기만 하면 상쇄될 수 있다고 생각했다.

이 선수를 평가하는 데 이론적 기반을 제공하는 것이 세이버매트릭스(Sabermatrics). 1970빌 제임스(Bill James)가 창안한 세이버매트릭스는 다년간 누적된 야구 통계수학적으로 분석선수의 능력평가하는 방법을 말한다. 그의 성공은 미국 경영진에 큰 충격을 주었다. 그러므로 미국 <월스트리트 저널>미국 경제에 큰 영향을 끼치는 파워 엘리트 30워런 버핏(Warren Buffett), 앨런 그린스펀(Alan Greenspan)과 함께 빌리 빈선정할 정도였다.

현대 야구는 빌리빈을 계기로 엄청나게 과학적으로 발전했다.

과학기술 및 카메라 기술의 발달로 더욱 정교한 데이터의 수집이 가능해졌으며 투구의 궤적 및 투수의 그립, 타구 방향, 야수의 움직임까지 잡아내고 있다. 이처럼 기존의 정형 데이터뿐만 아닌 비정형 데이터의 수집과 분석, 활용을 통해 최근 야구경기에서 빅 데이터의 중요성은 더욱 커지고 있다.

빌리 빈의 머니볼 아이디어 즉 데이터에 기반한 메이저리그의 성공담을 곧바로 도입한 곳이 대형할인점인 타켓(Target)이다. 타켓은 통계 부서를 육성하여 자사 매장에서 추출한 방대한 데이터를 분석매출을 더 많이 올릴 수 있는 방안을 찾고자 했다.

 

target

타켓소비자의 구매 목록뿐만 아니라 소비자의 나이, 성별, 혼인 여부, 자녀수, 주소지의 주변 여건 등은 물론 소비자자사 웹사이트에서의 활동까지 수집해서 이를 함께 분석했는데 이런 분석을 통해 소비자들의 구매 습관이 거의 변하지 않는다는 점을 발견했다.

일반 고객들은 보통 식료품을 살 때는 슈퍼마켓, 옷이나 기타 잡화를 살 때 쇼핑몰을 들린다. 그런데 타켓은 음식부터 가전제품, 가구 등 거의 모든 제품을 판매하므로 고객이 어떤 물품이라도 구입할 생각이 나면 우선 자신들의 타켓를 떠오르도록 소비자의 구매 습관을 바꾸어야 한다고 생각했다. 타켓의 전략은 고객들이 자신의 마케트를 다시 방문해달라는 의미로 주로 고객이 앞으로 구입할 예상 물품을 예상하여 그 부분 목록과 함께 쿠폰을 주는 것이다.

문제는 소비자가 평생 동안 몇 차례 중요한 시기제외하고 구매습관을 거의 바꾸지 않는다는 점이다. 중요한 시기란 소비자가 다른 장소로 이사하거나 아이를 갖는 경우. 그런데 수집된 데이터로는 고객이 언제 이사할지를 알지 모른다는 점이다. 즉 어느 고객이 여행용 가방이나 차량용 밧줄을 구입한다고 해도 그 고객이 이사한다고 단정할 수 없으며 더구나 어느 지역으로 이사할 지는 더더욱 알 수 없는 일이다.

그런데 타켓빅데이터를 이용하여 임신부를 찾아내는 것이 상대적으로 수월하다는 것을 발견했다. 타켓임신부에게 집중한 것은 일단 임신한 사실을 알게 된 이후부터 임신과 출산 이후에 필요한 여러 종류의 물품을 계속 구매한다는 점이다. 그러므로 고객의 출산 시기예측하면 자사의 제품을 홍보하는데 매우 유리하다는 결론을 내렸다.

타켓출산시기를 예측하는 프로그램을 토대로 임신한 여성 고객을 대상으로 3개월 주기로 맞춤형 쿠폰을 송부했다. 이를테면 첫 3개월 동안은 임신한 고객에게 비타민 보충제 쿠폰 등을 제공하는 식이다. 그런데 막상 이들 프로그램을 가동했더니 이들의 예측 모델이 매우 정확했다.

역설적이지만 이것이 오히려 걸림돌로 작용했다.

임신한 고객 중 임신 사실을 비밀로 하고 싶은 경우도 있기 마련이다. 타켓은 이 문제로 큰 곤욕을 치렀다. 한 고객을 임신부로 판단하고 계속하여 임신에 관한 쿠폰을 보냈다. 그런데 안타깝게도 그녀는 아직 고등학생이었다. 타켓에서 보낸 쿠폰이 계속 우송되자 아버지가 타켓 매장을 방문하여 항의했다. 그는 고등학교 다니는 딸에게 아기 옷, 아기 침대 쿠폰을 주는 것이 말이 되냐고 항의했다. 한마디로 어린 딸에게 임신하라고 조언하는 것 아니냐는 뜻이다.

매장에서 총알같이 사과하면서 상황을 수습하려고 했다. 그런데 얼마 후 아버지가 사과 전화를 했다. 딸이 임신했다는 것이다. 타켓딸의 부모들도 알아채지 못하는 임신사실사전에 파악했다는 것인데 이것은 빅데이터의 활약 때문이다. 이 문제는 미국에서 빅데이터가 심각한 프라이버시 문제를 일으킬 수 있다는 점에서 큰 반향을 일으켰다.

타켓이 보여주는 핵심은 인간의 행동고객의 구매 패턴을 분석하면 미래를 예측할 수 있다는 점이다. 이러한 데이터를 통한 예측은 매장의 판매에만 국한되는 것은 아니다.