학습목표 - 한국데이터베이스진흥원의 데이터 분석 전문가 가이드를 참조하였음.
한번에 학습목표를 주욱 읽고 넘어가면 내가 날림학습을 하게 될까 우려되어 이곳에 학습목표를 옮겨 적고 내가 읽고 이해한 내용을 나의 언어로 정리하기로 한다.
1. 빅데이터의 정의와 기능
빅데이터 = big데이터, 그러나 단순히 데이터를 용량 크기 순으로 따지고, 용량이 큰 데이터를 빅데이터라고 하는 것은 아니다. 데이터는 그 크기가 커지고 양이 많아질수록 복잡성이 증가한다. - 생각해보라 많은 데이터가 항상 같은 형식으로 저장되는가? 아니다. 그 형식이 다르다면 어떻게 해야 하는가? 엮으려면 어떻게 해야 하는가? 통합하고 이해할 수 있는 형식으로 바꿔야 한다. 그리고 이런 것들을 실시간 처리 하고 저장해야 한다. 그래서 단순한 의미가 아니라는 것이다. 아래는 그 그런 복잡하고 거대한 빅데이터를 정의하는 유명한 개념 3V, 5V다. 2014년 교재를 보고 있어 3V만 기재되어 챗 GPT를 통해 5V에 대한 설명까지 함께 가져왔다.
3V
Volume (양): 양이 매우 많다는 뜻, BIG 말 그대로임.
Velocity (속도): 양이 매우 많기 때문에 처리 속도도 당연히 빨라야 함, 기존 방식에 비해 매우 빠르겠지
Variety (다양성): 양이 많으니 당연히 그 종류 또한 무궁무진함 비정형 정형 온갖 종류 무수해
---
+2V
= 5V
Veracity (정확성): 데이터베이스에는 어떤 게 들어간다고? 거짓이 아니고, 신뢰할 수 있으며, 정확한 거.
Value (가치): 가치가 창출되잖아. 여기에서!
흔히들 빅데이터 시대가 되며 '기존방식'에서 창출할 수 없던 가치와 통찰을 얻을 수 있게 되었다고 한다.
어떻게 가능할까? 나는 그게 인간이 인지할 수 있는 범위를 넘어서 데이터를 엮을 수 있게 되었기 때문이라고 생각한다.
빅데이터는 없었던 것이 생긴 '발명' 이 아니다. 데이터를 다루는 방식과 과정 그리고 축적으로 인해 '빅데이터'로 진화한 것이다. 소규모 데이터들이 축적되고, 대규모가 되고, 이를 다루다보니 가치가 창출되었고, 본격적으로 다루게 되고,.... 그리고 무엇보다 이런 것들을 다루는 비용이 저렴해진 것.
인터넷이 발전하고, 모바일시대가 열리고, sns가 활성화되고, 클라우드 컴퓨팅 기술이 발전하고(이에 대해선 추가적으로 배워야 할 것 같아, 클라우드 컴퓨팅으로 획기적 비용절감이 되었고 접근성이 좋아진 건 알겠어 근데 더 자세히 알아야 할 것 같아)
빅데이터는 기능 면에서 비유되는 4가지 것들이 있다.
산업혁명의 석탄, 철 - 획기적으로 유통혁신을 이뤄낼 수 있게 함 빅데이터도 이렇듯 혁명적인 역할을 할 것이라는 뜻
21세기의 원유 - 모든 산업전반에 지금 원유가 사용되고 있는데, 빅데이터가 그런 역할을 해서 새로운 산업들을 만들어낼 것이다 라는 썰
렌즈 - 현미경의 렌즈처럼 빅데이터는 산업 전반에 영향을 미칠 것, 새로운 사실을 많이 창출하고 발견할 수 있게 할 거란 뜻, 건강에도 영향을 미칠 거란 뜻.
플랫폼 - 플랫폼은 공동으로 쓰는, 구조물을 뜻하는데, 유무형의 것을 의미한다. 빅데이터를 공동으로 활용하여(API어플리케이션 프로그램 인터페이스 공개 등으로) 사업자들이 이를 플랫폼처럼 사용할 수 있다. 빅데이터 자체로도, 그리고 빅데이터를 이용하는 것들을 또 플랫폼으로 사용하는 마치 트리구조처럼
2. 빅데이터로 인한 변화에 대한 이해
변화 4가지 큰거
사전처리에서 사후처리로
- 일단 모으고, 쓸모있는걸 찾는다.
표본조사에서 전수조사로
- 비용문제 해결(클라우드 컴퓨팅), 데이터 양 폭발적 증가 -> 필요한 정보 재수집이 아닌 데이터 재가공으로 변화하는 목표에 실시간 대응 가능, = 데이터 활용의 융퉁성 증가
정확한 패턴 파악가능, 샘플에서 파악 불가한 정보 창출
질에서 양으로
- 양이 많으면 질은 자동으로 충족된다.
인과관계에서 상관관계로
- 이유보다 사실이 더 가치있게 쓰인다. 이유는 나중에 알 수 있다. < 순전히 금전적 이익적 마인드. 흠 생각이 필요할 듯
3. 빅데이터의 가치와 영향 이해
우선, 빅데이터는 가치 산정이 어렵다는 사실을 알아야 한다. 하나의 목적을 가지고 수집한 데이터도 다른 곳에 활용될 수 있고, 많은 사람들이 사용한다. 가치가 실시간으로 변한다 이 말이다. 그리고 기존에 없던 가치를 창출한다는 것, 예측 가능한 범위의 가치가 아닌 기존에 예측하지 못했던 범위의 정보를 산출하므로 이게 도움이 될 지 안될지를 모른다 이말. 마지막으로 분석기술이 계속 발달하면서, 기존의 분석기술을 통해서는 쓸만한 정보를 산출하지 못한 데이터들이 새로운 가치를 산출할 수 있기도 하게 된다는 것, 그래서 빅데이터는 가치 산출이 어렵다 이거다.
맥킨지에서는 2011년에 빅데이터 보고서를 냈고 여기서 빅데이터가 가치를 만들어 내는 방식을 다섯개로 둔다 한다.
투명성 제고 ->연구개발 및 관리 효율성 제고
시뮬레이션 -> 수요 포착 및 주요 변수 탐색 -> 경쟁력 강화
고객 세분화&맞춤서비스 제공
알고리즘 활용 -> 의사결정 보조 OR 대체
비즈니스 모델&제품, 서비스 혁신
물론 이런 활용은 기업과 정부가 주도적으로 할 것이며, 개인은 낙수효과로 생활 전반이 스마트하게 변화한다함.
그 이익은 얼마나 챙길까? 기업과 정부..
영향 엄청나네.
4. 빅데이터 비즈니스 모델 이해
2014년 책인데도 여기서 빅데이터 활용 사례는 셀 수 없게 많다고 소개하고 있다. 지금 2024년, 10년이면 강산도 바뀐다던데 얼마나 많은 활용 사례가 추가되었을까... 얼마나 발전했을까?****알아보자
구글-검색 -> 사용자 로그 데이터 활용해 기존의 페이지랭크 알고리즘 혁신.(기존 시스템에 빅데이터 처리방법을 결합)
월마트 구매패턴 분석 -> 매출 상승 (ex/손전등과 비상음식 함께 진열)
의료부분개선 - 빅데이터 활용
등등 엄청나게 많다. 분야를 막론하고. 모든 분야라 해도 될 정도네..
빅데이터 비즈니스 모델 개발 기본 테크닉
7개로 소개하고 있다.
연관규칙학습
-월마트같은,
유형분석
-데이터의 유형이 무엇이고 어느 범주에 들어가는지
유전 알고리즘
-점점 최적화시켜 진화시켜나가는 방식 (ex/최고시청률을위한 방송시간대는?)
기계학습
-추천알고리즘 같은 예측중심
회귀분석(내가좋아하는거)
-인과관계
감정분석
-평가분석, 니즈 파악
소셜네트워크분석
-영향력있는 사람 찾기 / 오퍼니언 리더 파악
5. 빅데이터로 인한 위기 요인과 통제 방안 이해
사생활침해 -> 동의에서 책임으로
책임원칙훼손 -> 결과 기반 책임 원칙 고수
데이터 오용 -> 알고리즘 접근 허용/ 근데 이거 보고 몇 명이나 알겠어?
그래서 알고리즈미스트라는 여기에 정통한 직업 대두된다.
6. 미래의 빅데이터 이해
빅데이터 활용에 필요한 기본 3요소
데이터, 기술, 인력.
미래엔 모든 것이 데이터화 될것이고(M2M<=IOT의 아버지격이란다,IOT(사물인터넷)확산), 기술은 계속해서 진화할 것이며, 인력은 데이터와 관련해 특화될 것이다. (알고리즈미스트-피해구제사, 데이터 사이언티스트 - hard스킬 + soft 스킬 /hard가 필수제반, soft는 개인역량차가 클 듯)
2014년 책이라 그런지 최신화되지 않은 정보들이 있는 듯하다.
도서관에 희망도서로 신규 도서를 신청했다. 받으면 새로 읽어볼 것이다.