넛지 4차 산업혁명/빅데이터

빅데이터(4) : 빅데이터 활용

Que sais 2020. 11. 2. 13:05

youtu.be/QDkBBIWk3oo

빅데이터 활용

빅데이터가 지구인들에게 크게 부각된 것은 2008년 미국 대통령 선거이다.

2008 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 다양한 형태의 유권자 데이터베이스확보하여 이를 분석, 활용한 '유권자 맞춤형 선거 전략'을 전개했다. 당시 오바마 캠프인종, 종교, 나이, 가구형태, 소비수준과 같은 기본 인적 사항으로 유권자를 분류하는 것을 넘어서서 과거 투표 여부, 구독하는 잡지, 마시는 음료유권자 성향까지 전화나 개별 방문 또는 소셜 미디어를 통해 유권자 정보를 수집하였다.

수집된 데이터오바마 캠프 본부로 전송되어 유권자 데이터베이스를 온라인으로 통합관리하는 보트빌더(VoteBuilder.com)시스템의 도움으로 유권자 성향 분석, 미결정 유권자 선별 , 유권자에 대한 예측을 해나갔다. 이를 바탕으로 유권자 지도를 작성한 뒤 유권자 맞춤형 선거 전략을 전개하는 등 오바마 캠프는 비용 대비 효과적인 선거를 치를 수 있었다. 한마디로 이런 빅데이터 이용 아이디어가 선거에서 큰 도움을 받았다는 뜻이다.

여하튼 빅데이터잔잔한 부분에도 적용된다

유럽인들도 을 많이 먹지만 한국인을 비롯한 아시아인처럼 쌀을 주식으로 하지는 않으므로 상점의 주요 판매 지수는 아니다. 그런데 한국인잘 먹는 쌀은 다른 종류의 쌀보다 매우 저렴하다. 한국인들은 찰진 쌀일등품으로 생각하는데 유럽인들을 비롯한 외국인들은 이를 매우 싫어한다. 실제로 한국인들은 외국인들의 쌀이 낱알대로 노는 것을 매우 이상해하는데 외국인들은 한국인들의 쌀밥을 이상하게 본다. 그러므로 한국인이 좋아하는 쌀은 매우 가격이 저렴하다. 한국인이 외국에서 생활할 때 좋은 점 중 하나.

여하튼 외국 상점으로 볼 때 한국인이 좋아하는 쌀은 환가성이 매우 낮은 물품이라고 볼 수 있다. 그럼에도 불구하고 한국인이 많이 살고 있는 지역의 슈퍼에서는 한국인용 쌀을 기본 준비물품으로 전시한다. 경영에 도움이 되지 않는다고 생각되는 한국인들이 선호하는 쌀을 비치하는 것은 한국인이 쌀만 사는 것이 아니기 때문이다. 소위 슈퍼 마켓측으로 보면 쌀이 미끼 상품인데 이 역시 데이터 분석에 의한 것이다.

 

<빅데이터는 흥행의 점술사>

빅데이터라는 비장의 무기는 데이터 양이 많으면 많을수록 효율성이 높아진다.

구글은 접근할 수 있는 모든 웹 페이지를 탐색해서 제목과 내용검색어와 얼마나 밀접한 관계를 가지는지를 측정지수로 환산한다. 이렇게 방대한 작업을 빠른 시간에 처리하기 위해 구글분산파일시스템과 맵리듀스라는 처리 기술을 개발했다.

구글은 자사가 개발한 자동번역 시스템통계적 기계 번역(statistical machine translation)’이라고 표현하는데 이는 컴퓨터에게 문법을 가르치지 않고 사람이 이미 번역한 수억 개의 문서에서 패턴을 조사해서 언어 간 번역 규칙스스로 발견하도록 하는 방식이다.

IBM 연구소가 개발한 슈퍼컴퓨터 '왓슨'인간의 언어에 대한 이해를 기반으로 방대한 정보빠르게 검색하는 기술을 개발했다. 왓슨20112 미국에서 가장 인기 있는 퀴즈쇼 제퍼디(Jeopardy!)에 출연해서 인간 챔피언과 겨뤄 승리했다. 제퍼디퀴즈의 질문은 분야가 광범위하고 은유적인 표현이 포함되어 사람들조차도 의미를 파악하기 어렵다고 알려지는데 왓슨4테라바이트(TB)에 해당하는 2억 페이지에 달하는 콘텐츠를 활용했다.

인터넷 상정보 바다에서 소비자가 자신이 원하는 제목을 효과적으로 찾을 수 없으므로 정보의 과부하를 해소하기 위해 기업들은 다양한 추천 시스템을 활용한다. 예를 들어 인터넷 사이트 검색을 통해 자신의 취향과 선호에 맞는 여행지를 결정하고 이동수단과 묵을 곳을 정해 예약하려면 상당한 정보 탐색의 시간필요하다. 하지만 개인 맞춤형 여행 추천 시스템은 개인의 취향과 과거의 여행 기록 등을 토대로 고객이 가장 흥미를 가질 만한 장소를 추천해주므로 정보 탐색의 부담이 크게 줄어든다.

 

빅데이터와 인터넷

빅데이터가 우리에게 얼마나 쉽게 접목할 수 있느냐는 구글의 예를 보아도 알 수 있다.

일반적으로 사람들은 감기에 걸리면 병원 약국에 가기 전 독감이나 같은 단어검색하는데 구글은 이러한 점에서 착안하여 2008부터 검색 정보와 위치를 기반하여 미국의 감기바이러스 확산 상황을 알려주는 서비스를 제공 중에 있다.

, 이 시스템은 감기독감과 같은 검색빈도높은 지역을 지도에 표시함으로써 독감의 확산을 예측할 수 있다. 대부분의 보건 기구는 일주일에 한번만 예상 수치를 업데이트하지만 구글 독감 트렌드18개 국가를 대상으로 매일 업데이트되므로 기존의 시스템을 보완한 것이다.

또한, 패션브랜드자라(ZARA)빅데이터를 분석하여 활용하고 있다. 자라의 경우 다품종 소량생산마케팅 판매 전략으로 삼고 있다. 일반적인 패션 브랜드의 상품 종류에 비해 2배 이상의 종류생산한다. 오더부터 생산, 매장에 입점할 때까지 단 6주이내로 걸린다. 때문에 수요 예측과 매장 별 재고 산출, 상품별 가격 결정, 운송까지 실시간으로 파악해야 할 필요가 있었고, 이를 위해 MIT연구팀과 연계해 빅데이터를 활용하는 재고관리 시스템을 개발하여 현장에 접목했다. 한마디로 효과 만점이라는 뜻이다.

빅데이터를 이용하여 큰 재미를 본 곳은 아마존만은 아니다.

이런 개인 맞춤형 추천 기법은 도서, 영화, 음악, 쇼핑, TV, 인터넷 콘텐츠, 신문이나 잡지 기사뿐 아니라 온라인 데이터까지 광범위하게 활용된다. 개인맞춤형 추천 기법은 어떤 정보 즉 제품 특성, 고객 취향, 구매 기록 등을 사용해 개인이 가장 좋아할 만한 아이템을 추천하느냐에 따라 달라진다. 빅데이터를 이용하는 이런 시스템을 개발한 사람들이 남보다 앞장서 달릴 수 있음은 물론이다.

 

<협업 필터링>

현재 사용되고 있는 방법이 협업 필터링(collaborative filtering) 기법이다.

협업 필터링은 구매, 시청, 청취 등 고객의 유사한 행위나 평가 정보맞춤형 마케팅으로 각 고객에게 제시할 수 있다. 이 기법을 가장 적극적으로 활용한 예가 미국의 신생 공룡 미디어 콘텐츠 유통기업넷플릭스(Netflix)이다. 넷플릭스는 이용자의 영화 대여 목록에 기초해서 새로운 영화를 추천해주는 시네매치(Cinematch) 시스템을 개발했는데 이런 작은 아이디어가 빅데이터를 활용하면 세계적인 거대기업이 될 수 있다는 것을 보여주어 그야말로 세계인들에게 충격을 주었다.

 

넷플릭스 추천

1997 리드 헤이스팅스(Reed Hastings)는 미국에서 대형 비디오 대여 업체인 블록버스터에서 영화 아폴로 13을 빌렸는데 깜빡하고 늦게 반납하여 연체료 40달러를 물었다. 그는 언제 반납하더라도 연체료를 내지 않고 DVD를 빌려 볼 수 있는 방법을 구상하기 시작했고 이를 실천에 올린 것이 넷플릭스. 그는 헬스클럽처럼 매달 정액제로 온라인으로 영화 DVD를 주문해 무료 우편서비스로 받아 본 뒤 다시 무료 우편서비스반납하는 시스템이다.

그가 이 사업을 구상하자 많은 지인들이 곧 망할 것이라고 말했다. 당시 이미 <블록버스터>란 공룡이 미국 구석구석에 9,000여 개 이상의 대여점을 두고 매년 30억 달러 이상 수입을 올리며 시장을 장악하고 있었다. 더욱이 미국 우편서비스달팽이 우편이라 할 정도로 느린 것으로 소문나 있었다. 그러나 모두의 예상을 뒤엎고 넷플릭스1999500만 달러 매출에서 200610억 달러, 201344억 달러로 초스피드 성장을 했으며 전 세계 회원수가 5,000만 명이 넘을 정도다. 후담을 말하자면 거대 공룡 <블록버스터>는 결국 파산했다.

넷플릭스의 성공 비결개인 맞춤형 영화 추천을 잘 활용했다는 것이다. 일반적으로 많은 사람들이 어떤 영화 DVD를 빌릴지 결정하는데 어려움을 겪는데 그가 만든 영화 추천 엔진 시네매치알고리즘은 장르별로 분류한 영화 10만 개에 대한 2,000만 건의 고객 영화 평점을 활용한다. 또한 각 회원의 웹사이트 내에서 클릭 패턴이나 검색어 입력행동 패턴, 실제 콘텐츠 대여 이력, 시청 영화에 부여한 평점 등을 분석고객 취향에 맞춰 영화를 추천하고 DVD 재고 상황을 최적화한다. 회원 80% 정도가 시네매치가 추천한 영화를 대여하므로 영화 감상 후 만족도도 90%나 된다.

중요한 것은 넷플릭스에서 엄청난 컴퓨터 장비를 동원한 것이 아니라 빅데이터클라우드 컴퓨팅 시스템을 적극적 활용했다는 점이다. 과거 대형 업체들이 정보를 얻고 이를 저장, 분석하기 위해 어마어마한 컴퓨터를 자체적으로 확보해야했는데 넷플릭스인터넷의 장점무료로 모든 안내 사업을 처리했다.

 

소프트웨어 즉 작은 아이디어와 오로지 개인용 PC만 갖고 거대기업으로 성장시켰다는 것으로 바로 이 점이 4차 산업혁명의 핵심 요소. 빅데이터활용하여 언제든 넷플릭스와 같은 대 히트를 칠 수 있다는 뜻이다.

그렇다고 마냥 생각만으로 빅데이터를 활용할 수 있는 것은 아니다.

협업 필터링 방식을 사용하려면 그전에 고객의 선호나 행위에 대한 많은 데이터가 축적되어야 하기 때문이다. 한마디로 계속 같은 상점을 방문하여 구매하는 경우 이들 정보를 토대로 고객에 대한 선호도를 분석할 수 있다. 그러나 새로 출시된 제품에는 고객 선호에 대한 충분한 데이터가 부족하므로 추천에 어려움을 겪을 수밖에 없다.

이런 문제점 극복을 위해 남다른 아이디어를 도출한 곳이 아마존이다.

도서 판매를 기본으로 탄생한 아마존도 당대에 최고의 첨단 기술인 협업 필터링 기법을 사용하여 고객을 유치하려고 했다. 그러나 영화와 책은 영역이 다르다. 특히 인쇄물의 경우 하루에도 엄청나게 많은 양의 책들이 쏟아져 나오므로 신간 서적 특성상 추천의 정확도낮기 마련이다.

그래서 아마존은 고객 선호나 행위는 고려하지 않고 구매한 아이템에서만 유사성을 찾았다. 아마존은 이용자가 아이템을 검색할 때마다 이 상품을 구입한 사람은 이런 상품도 샀습니다라는 제목으로 추천 아이템 목록을 제시한다. 더불어 고객이 읽을 것으로 예상되는 책을 추천하면서 할인쿠폰도 지급한다.

전형적인 데이터 분석에 기반마케팅 방식은 고객에 큰 도움을 주어 아마존이 비상하는 발판이 되었고 31개 제품 카테고리를 커버하는 세계 최대 인터넷 쇼핑몰로 거듭났다. 한국의 인터넷 도서 판매업체인 교보문고, YES24, 알라딘에서도 자신이 원하는 책을 찾으면 하단부에 다른 고객이 구입한 책이나 유사한 분야의 책을 나열하여 함께 구매할 것을 조언하는 것은 바로 아마존성공한 비결을 따른 것이라 볼 수 있다.

4차 산업혁명의 기본예상치 못한 아이디어가 세계를 아우를 수 있다는데 있다.

여기에서의 승부창발성상상력의 보고독창성이다. 경쟁의 원리는 대단히 비정하다. 경쟁은 필연적으로 승자와 패자를 갈라놓는데 승자는 소수고 패자는 다수. 그러나 돌아가는 보상의 몫은 승자가 더 크다. 때때로 현장 특성에 따라 패자에 대한 보조가 있는 경우도 있지만 그것은 사후적인 정책의 결과이지 경쟁 그 자체에 보호본능이 있는 것은 아니다.

윌 스미스TV 탈렌트를 거쳐 현재 할리우드를 주름잡는 최고의 흥행 스타로 활약하고 있다. 2009 경제 전문지 <포브스>전 세계 영화전문가 1,400여 명을 대상으로 흥행성(Star currency)을 조사했다. 투자 매력도, 박스오피스 성공 가능성, 매스컴 화제성 등의 다양한 속성을 평가하는데 한마디로 여기서 상위권이라면 눈 감고 투자해도 손해 보지 않는다는 배우를 의미한다.

여기에서 1등한 배우윌 스미스. 잘 알려진 조니 뎁, 레오나르도 디카르피오, 안젤리나 졸리, 브래드 피트2위 그룹군, 톰 행크스, 조지 클루니, 덴절 워싱톤, 맷 데이먼, 잭 니컬슨 등이 20위 권에 들었다.

윌 스미스가 영화에 본격적으로 데뷔할 때부터 엄청난 성공을 거둔 이유는 자신 나름대로 빅데이터를 활용했기 때문이다. 윌 스미스1990년대 미국 NBC-TV에서 자신의 이름을 딴 시트콤 더 프레스 프린스 오브 벨에어(The Fresh Prince of Bel-Air)로 큰 성공을 거두었지만 그가 도전하려는 할리우드TV와는 차원이 다른 동네이다.

그는 10년 동안 박스오피스에서 최고 흥행을 거둔 영화 10을 고른 다음 그 영화 내용을 분석했다. 분석이란 데이터 속에 숨은 일관적인 패턴을 찾는 것이다. 그가 찾아낸 흥행 성공의 패턴10편 모두 특수효과를 사용했고 그중 9편이 외계생명체를 등장시켰으며 8편이 러브스토리가 있다는 것이다.

 

인디펜덴스

이런 분석을 바탕으로 그가 고른 영화는 인디펜던스 데이, 맨인블랙이었다. 두 영화 모두 외계인이 등장하고 최고 수준의 특수효과로 무장했다. 이 영화는 전 세계적으로 약 13억 명의 관객을 끌어 모았다.

그의 흥행 성적은 그야말로 놀랍다. 미국 내에서 연속으로 81억 달러 이상 수익을 냈고 국제적으로는 영화 11이 연속적으로 15,000만 달러 이상 수익을 내면서 윌 스미스기네스북에도 올랐다. 지금까지 그가 출연한 20여 편 중 1억 명 이상 관객을 모은 영화가 15편 이상이며 5억 명 이상 관람한 영화5이나 된다. 영화계에서 윌스미스는 그의 이름 하나로 액션, 코미디, 드라마 등 장르에 관련 없이 많은 관객을 끌어들일 수 있는 최고 흥행 배우라는 것을 알려주는데 그의 성공인공지능으로 무장한 빅데이터에서 자신이 가고자하는 길을 찾았고 이를 실천에 옮겼다는데 있다.

영화계에서 빅데이터의 사용은 이제 보편적이다.

영화의 개봉일 선정은 매우 중요한데 과거에는 영화 한 편을 찍고 나면 제작자들이 '손 없는 날'이나 '길일(吉日)'을 개봉일로 잡기 위해 점집으로 달려가는 것은 당연한 일로 생각했다. 그러나 현대영화 개봉일을 잡기 이전부터 빅데이터 분석과 사전(事前) 관객 설문 조사, 경쟁 작품 조사 등을 통해서 예상 관객 숫자산출한다. 놀라운 것은 빅데이터의 예측이 대부분 적중한다는 것이다.