넛지 4차 산업혁명/빅데이터

빅데이터(2) : 빅데이터 세상

Que sais 2020. 11. 2. 11:41

youtu.be/Rg88I9_yKmw

<빅데이터 세상>

4차 산업혁명이란 엄청난 변화를 갖고 올 핵심으로 제일 먼저 제시되는 것이 빅데이터(Big Data). 그런데 빅데이터가 갑자기 등장한 것은 아니다. 그렇다면 빅데이터왜 출현했는가가 의문이지만 이 질문은 간단하게 생각할 수 있다.

우선 모바일 기기로 대변되는 스마트폰의 활성화이다. 모바일 스마트에 탑재된 하드웨어인 센서 기술, 원격제어 기술, 애플리케이션, 플랫폼 소프트웨어, RFID 리더 장치, 기타 카메라 기술 등을 통하여 비정형화된 데이터를 손쉽게 접근, 수집하게 됨으로써 데이터가 폭발적으로 증가했다.

둘째는 클라우드 서비스. 클라우드 서비스를 통하여 서버를 이용한 사용자의 데이터한 곳으로 축적되고 이렇게 저장된 데이터분석하여 업그레이드된 정보재활용하는 요구증대하였다.

셋째는 SNS소셜 미디어의 일상화. 소셜 미디어정보 유통 구조를 새롭게 재편했다. 소셜 미디어의 주요 특징양방향 커뮤니케이션을 통한 상호작용이다. 쌍방 정보 교류가 활발해지자 자연적으로 데이터 증가로 이어졌다. 비즈니스 측면에서도 이런 상호작용 데이터절대적으로 필요하기 때문이다.

더불어 CPU, 스토리지, 메모리하드웨어의 가격이 낮아지면서 정보 저장 및 처리비용의 저렴해졌고 각종 오픈 소스의 기술 발전에 있다. 또한 대용량 비정형 데이터하둡(Hadoop)을 사용하여 빠르게 분산 처리하여 결과를 얻을 수 있고 통계 툴을 활용하여 통계함수 처리데이터 비쥬얼리제이션(Data Visualization)을 할 수 있게 되었기 때문이다. 더불어 원래 존재했지만 관리되지 않고 버려지는 데이터비즈니스적인 가치가 있다는 것을 알고 이를 찾으려는 노력도 빠지지 않는다.

이러한 시도가 쉽지 않다는 것을 잘 이해하겠지만 실제로 이런 데이터에서 가치를 찾아서 활용한 사례는 매우 많다. 현재 페이스북(Facebook), 트위터(Twitter), 구글(Google), (Dell), 타켓(Target) 등이 바로 빅데이터를 활용하여 비즈니스적 가치를 찾아내어 세계를 석권하고 있다 볼 수 있다. 현재 세계를 석권하고 있는 대형 정보업체들은 거의 모두 빅데이터의 혜택을 보고 있다는 뜻과 다름없다.

그러나 이를 엄밀한 잣대로 보면 빅데이터잠재적 가치와 위험이 공조할 수 있다는 것을 의미한다. 사회경제적으로 성패를 좌우하는 핵심 원천이 되는 빅데이터이지만 올바른 활용필요하다는 뜻이다.

몇 십 년 전만해도 빅데이터란 말은 등장하지 않았지만 현재 빅데이터는 우리들의 실생활에 깊숙이 들어와 있다. 학자들은 디지털 혁명의 확산으로 규모를 가늠할 수 없을 정도로 많은 정보와 데이터가 생산되는 상황을 빅데이터 환경이라고도 부른다.

현대를 살고 있는 사람이라면 빅데이터를 이해하는 것이 도움이 된다는 뜻으로 빅데이터의 등장부터 앞으로의 전망 등을 개략적으로 설명한다.

 

전방위 빅데이터

빅데이터란 말 그대로 과거 아날로그 환경에서 만들어진 데이터에 비하면 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다.

<위키피디아>에 의하면 빅데이터기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이라고 정의하고 있다.

IDC(Industrial Development Corporation)에 의하면 빅데이터의 정의를 다음과 같이 명시했다.

 

다양한 데이터로 구성된 방대한 볼륨의 데이터로부터 고속 캡처, 데이터 탐색 및 분석을 통해 경제적으로 필요한 가치추출할 수 있도록 디자인된 차세대 기술과 아키텍처

 

빅데이터가 워낙 넓은 뜻으로 사용되므로 대체로 빅데이터란 다음과 같이 정의내린다.

 

빅데이터대량의 다양한 정보뿐만 아니라 신속한 정보의 수집 및 처리속도를 갖추는 것, 나아가 데이터의 불확실성을 인지하고 분석을 통한 비즈니스 가치를 찾아내는 것이다.’

 

이 말에 의하면 다양하고 복잡한 데이터에서 비즈니스 가치를 찾아내는 과정이 빅데이터 분석이라 할 수 있다. 다시 말해, 어려운 분석 방법을 통해서 데이터 분석을 했지만 비즈니스적 가치가 없다면 빅데이터라고 할 수 없다는 뜻이다. 이러한 빅데이터가 현대인들의 일반 생활에 얼마나 깊숙이 들어와 있는지는 다음으로도 알 수 있다.

 

사용자가 직접 제작하는 UCC를 비롯한 동영상 콘텐츠, 휴대전화SNS(Social Network Service)에서 생성되는 문자, 블로그나 SNS에서 유통되는 텍스트 정보를 통해 글을 쓴 사람의 성향뿐 아니라, 소통하는 상대방의 연결 관계까지도 분석할 수 있다. 또한 사진이나 동영상 콘텐츠PC를 통해 이용할 수 있으며 방송 프로그램도 TV수상기를 통하지 않고 PC나 스마트폰으로 볼 수 있다.’

 

빅데이터 구조도

현재 스마트폰이나 태블릿 PC에 들어간 칩과 센서에 무제한적으로 입력하는 정보가 엄청난 양의 데이터를 생산하고 있다는 것은 알려진 자료로만으로도 알 수 있다. 트위터(twitter)에서만 하루 평균 15,500만 건이 생기고 유튜브(youtube)의 하루 평균 동영상 재생건수는 40억 회에 이른다. 모바일 데이터는 매년 61%씩 증가하고 있으며 데이터 전체 양은 5060% 늘어나고 있다.

다국적 데이터 회사들이 추측하는 데이터의 양은 그야말로 천문학적으로 202040제타바이트(zettabyte)에 달할 것으로 예측했다. 1제타바이트1조 바이트 즉 1,000엑사바이트(exabyte)인데 1엑사바이트는 미 의회도서관 인쇄물10만 배에 해당하는 정보량이며 1제타바이트는 전 세계 사람이 35년 동안 쉬지 않고 감상할 수 있는 DVD 2,500억 개 가량의 용량이다. 이를 개인별로 나누면 300만 권의 책에 담긴 데이터 용량에 버금간다. SNS, 사진, 동영상 등 다채로운 디지털 정보가 등장하면서 주요 도로와 공공건물은 물론 소규모 마트, 아파트 엘리베이터 안에까지 설치된 CCTV도 빅데이터의 부산물이다.

 

빅데이터는 처음 3V 데이터의 양(Volume), 데이터 생성속도(Velocity), 형태의 다양성(Variety)로 요약된다. 여기에 가치(Value), 복잡성(Complexity)이 포함되기도 한다. 최근에는 신뢰성(validity), 휘발성(volatility)등 두 가지를 추가하여 7V라고도 한다.

문제는 빅데이터를 저장만한다고 해서 각 개인의 입맛에 맞게 활용될 수 있는 것은 아니다. 202010 인터넷 구글(Google)에서 ‘google란 단어를 입력했더니 검색결과 9,880,000,000의 목록이 나왔다. ‘Love(사랑)를 치면 12,720,000,000이 올라오며 Simple(단순)을 치자 4,150,000,000이 올라왔다. 인간 생활에서 가장 중요하다고 생각되는 사랑과 마찬가지로 단순이라는 단어가 인간과 매우 밀접하다는 것을 뜻한다.

빅데이터의 효율성데이터양이 많으면 많을수록 높다는 점이다.

그러나 빅데이터는 정보 수집과 저장만으로는 의미가 없다는 점이다. 이들 정보 중에서 자신이 필요한 정보어떻게 찾아내느냐가 관건이다.

빅데이터를 통한 엄청난 규모의 데이터 자체를 넘어 이를 관리하고 분석하기 위해 필요한 인력과 조직, 기술확보되어야 한다는 점이다. 그러므로 빅데이터란 기존 데이터베이스 관리 도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량뿐만 아니라 대량의 정형 또는 비정형 데이터 집합과 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 총칭한다.

빅데이터의 용량이 크다는 것은 단순 저장되는 물리적 데이터 양뿐만이 아니라 이를 분석, 처리하는 데 어려움이 따를 만큼 네트워크 데이터급속하게 증가한다는 것을 의미한다.

문제는 데이터의 다양성(variety)이 매우 골머리 아픈 문제점을 제기한다는 점이다.

오늘날 매일 쏟아지고 분석해야 하는 데이터의 형태가 매우 다양하기 때문에 단순히 큰 규모로만으로 빅데이터라고 할 수 없다는 것이다. 그동안의 데이터는 기업의 재무 데이터처럼 비교적 형태가 잘 정리된 것들이지만 최근 쏟아지는 데이터들은 정해진 형식에 맞추어진 것들이 아니라 매우 다양한 형태를 보이고 있다.

빅데이터의 구성정형화(structured)된 정보뿐만 아니라 반정형화(semi-structured) 데이터, 비정형화(unstructured) 데이터 등이 복합적으로 이루어진다. 이를 효율적으로 활용하면 빠르게 변화하는 현대 사회를 더욱 정확하게 예측할 수 있고 개개인의 맞춤형 정보까지 제공할 수 있다.

정형화 데이터는 일정한 규칙에 따라 체계적으로 정리된 데이터를 말한다. 통계청의 연간 통계자료, 각종 과학적 데이터, 기업의 고객, 매출, 재고, 회계 데이터 등이다. 이런 정형화된 데이터는 자체로도 의미있는 데이터이므로 바로 활용가능한 정보가 된다.

반정형화 데이터아래아한글, MS워드 등 문서프로그램 등 응용 소프트웨어로 작성된 데이터로 볼 수 있다. 반정형화 데이터는 표나 그림이 될 수도 있지만 일반적으로 문자로 서술된 정보를 말한다.

비정형화 데이터동영상, 음악, 메시지 등이 있는데 보통 스마트 기기 등을 통하여 형성되는 데이터를 말한다. 그 외 SNS로 불리는 페이스북, 트위터, 카카오톡 등의 네트워크가 이에 해당된다. 이들을 통해 뉴스나 커뮤니티 사이트의 게시물, 유튜브의 동영상, 팟캐스트, 음악, 사진 등은 각기 자유롭게 제작하고 올린다. 누구도 형식을 지정해 주지 않고 제각각으로 이런 크기와 내용이 제각각인 비정형화 데이터의 주목적사용자의 공유, 상호 정보 교환에 있다. 그러므로 4차 산업혁명에서 빅데이터비정형화된 데이터에 중점을 두고 있는데 일부 학자들은 앞으로 이런 비정형 데이터가 전체의 90% 이상을 차지할 것으로 추정한다.

 

구글

구글은 이런 상황을 잘 숙지하고 접근할 수 있는 모든 웹 페이지를 탐색해서 제목과 내용검색어와 얼마나 밀접한 관계를 가지는지를 측정해 지수환산한다. 이렇게 방대한 작업을 빠른 시간에 처리하기 위해 구글분산파일시스템과 맵리듀스라는 처리 기술을 개발했다. 구글은 자사가 개발한 자동번역 시스템통계적 기계 번역(statistical machine translation)이라고 표현하는데 이는 컴퓨터에게 문법을 가르치지 않고 사람이 이미 번역한 수억 개의 문서에서 패턴을 조사해서 언어 간 번역 규칙스스로 발견하도록 하는 방식이다.