블로그 이미지
원테이크
당신이 필요로 하는 정보를 여기에 옮긴다.

calendar

1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

Notice

2024. 6. 20. 01:07 카테고리 없음

궁금해 하는 것들만 적겠습니다.

 

비전공자 기준입니다

 

1차 테스트(CT/수리추리시험) 대비를 위해 한 것

 

1. 싸피 기출문제 (네이버 검색하면 나옴) CT 1~3회차, 수추리 1~3회차

 

2차 테스트(면접) 대비를 위해 한 것

 

1.  면접스터디 (비대면으로 진행, 8명 규모, 에세이 기반 질문 서로 해주기)

2. PT면접 스터디 (직접 방 생성해서 진행, 큰 카테고리 EX)AI,빅데이터,블록체인 등등 를 정해놓고 그에 따른 이슈 정리 

하루 2개 10명규모)

3. 2차CT 준비, CT1~3회차 복습

 

끝!

posted by 원테이크
2024. 5. 29. 16:10 카테고리 없음

2014 ADP 데이터분석전문가-한국데이터베이스진흥원 < 학습목표 긁어옴

 

학습목표

 

빅데이터 분석의 현황과 현단계 과제에 대한 이해

 2014년 자료라 추가적으로 검색해서 현황과 과제에 대해 알아보았다. 가장 중요하게 사용되는 것은 역시 iot 실시간 자료 수집 처리와 소셜 미디어 데이터로 판단된다. 이를 이용해 대부분에 사업에 널리 활용되고 있다는 것을 알 수 있었다. 클라우드 컴퓨팅 기술이 획기적인 비용 절감을 가져다 주긴 했나보다. 그리고 AI와 머신러닝이 빅데이터 분석에 도입되면서 엄청난 성능 향상을 가져왔다고 한다. 머신러닝은 높은 정확도를 가져왔다고 한다.(예측정확도에서) AI기술은 비정형 데이터 분석에 매우 효과적이라고 한다. 머신러닝은 AI의 하위분야, 동일시 되어선 안되는 걸 잊지말자. 

 현 단계에서 빅데이터 분석의 과제로 여겨지는 것은 뭐 당연한 것들이었다. 데이터에 매몰되지 말 것, 데이터를 남용하지 말 것, 그러니까 데이터를 올바르게 쓸 것, 데이터의 정확도를 높여야 할 것.

 

전략적 가치 기반 분석에 대한 이해

 교재에선 아메리칸항공의 실패에 대해, 사우스웨스트항공의 성공에 대해 말한다. 헨리 데이비드 소로의 윌든이 생각나는 전략이었다. "단순, 단순, 단순!" .... 복잡한 분석을 하기 전에 단순한 사실을 잊지 말아야 한다는 것이다. 고객은 싼 것을 찾는다. 비싼 것을 최적화 해봤자, 싼 것에 밀린다, 비싸게 팔고 싶다면 특별한 것을 제공해야 한다는 것, 합리적인 생각을 해야한다는 것, 전략적 가치의 근본을 배웠다.

 

 

 

데이터 사이언스의 의미와 역할에 대한 이해

 

데이터 사이언티스트의 요구 역량에 대한 이해

 

전략적 통찰력과 인문학 대두의 배경에 대한 이해

 

데이터 사이언티스트에게 요구되는 인문학적 사고에 대한 이해

 

데이터 사이언스의 미래에 대한 이해

  • 데이터 익명화: 개인 식별 정보를 제거하거나 암호화하여 데이터를 익명화합니다.
  • 프라이버시 정책 강화: 엄격한 프라이버시 정책과 규정을 준수하고, 데이터 수집 및 사용에 대해 투명성을 유지합니다.
  • 개인정보 보호 기술: Differential Privacy와 같은 기술을 도입하여 데이터 분석 과정에서 개인 정보가 노출되지 않도록 합니다.

 

 

 

ssafy 면접 준비로 인해 일시중지.

 

posted by 원테이크
2024. 5. 27. 20:32 카테고리 없음

학습목표 - 한국데이터베이스진흥원의 데이터 분석 전문가 가이드를 참조하였음.

 

한번에 학습목표를 주욱 읽고 넘어가면 내가 날림학습을 하게 될까 우려되어 이곳에 학습목표를 옮겨 적고 내가 읽고 이해한 내용을 나의 언어로 정리하기로 한다.

 

1. 빅데이터의 정의와 기능

 빅데이터 = big데이터, 그러나 단순히 데이터를 용량 크기 순으로 따지고, 용량이 큰 데이터를 빅데이터라고 하는 것은 아니다. 데이터는 그 크기가 커지고 양이 많아질수록 복잡성이 증가한다. - 생각해보라 많은 데이터가 항상 같은 형식으로 저장되는가? 아니다. 그 형식이 다르다면 어떻게 해야 하는가? 엮으려면 어떻게 해야 하는가? 통합하고 이해할 수 있는 형식으로 바꿔야 한다. 그리고 이런 것들을 실시간 처리 하고 저장해야 한다. 그래서 단순한 의미가 아니라는 것이다. 아래는 그 그런 복잡하고 거대한 빅데이터를 정의하는 유명한 개념 3V, 5V다. 2014년 교재를 보고 있어 3V만 기재되어 챗 GPT를 통해 5V에 대한 설명까지 함께 가져왔다.

3V
Volume (양): 양이 매우 많다는 뜻, BIG 말 그대로임.
Velocity (속도): 양이 매우 많기 때문에 처리 속도도 당연히 빨라야 함, 기존 방식에 비해 매우 빠르겠지
Variety (다양성): 양이 많으니 당연히 그 종류 또한 무궁무진함 비정형 정형 온갖 종류 무수해
---

+2V

= 5V
Veracity (정확성): 데이터베이스에는 어떤 게 들어간다고? 거짓이 아니고, 신뢰할 수 있으며, 정확한 거.
Value (가치): 가치가 창출되잖아. 여기에서!

 

흔히들 빅데이터 시대가 되며 '기존방식'에서 창출할 수 없던 가치와 통찰을 얻을 수 있게 되었다고 한다.

어떻게 가능할까? 나는 그게 인간이 인지할 수 있는 범위를 넘어서 데이터를 엮을 수 있게 되었기 때문이라고 생각한다.

 

빅데이터는 없었던 것이 생긴 '발명' 이 아니다. 데이터를 다루는 방식과 과정 그리고 축적으로 인해 '빅데이터'로 진화한 것이다. 소규모 데이터들이 축적되고, 대규모가 되고, 이를 다루다보니 가치가 창출되었고, 본격적으로 다루게 되고,.... 그리고 무엇보다 이런 것들을 다루는 비용이 저렴해진 것.

인터넷이 발전하고, 모바일시대가 열리고, sns가 활성화되고, 클라우드 컴퓨팅 기술이 발전하고(이에 대해선 추가적으로 배워야 할 것 같아, 클라우드 컴퓨팅으로 획기적 비용절감이 되었고 접근성이 좋아진 건 알겠어 근데 더 자세히 알아야 할 것 같아)

 

빅데이터는 기능 면에서 비유되는 4가지 것들이 있다.

산업혁명의 석탄, 철 - 획기적으로 유통혁신을 이뤄낼 수 있게 함 빅데이터도 이렇듯 혁명적인 역할을 할 것이라는 뜻

 

21세기의 원유 - 모든 산업전반에 지금 원유가 사용되고 있는데, 빅데이터가 그런 역할을 해서 새로운 산업들을 만들어낼 것이다 라는 썰

 

렌즈 - 현미경의 렌즈처럼 빅데이터는 산업 전반에 영향을 미칠 것, 새로운 사실을 많이 창출하고 발견할 수 있게 할 거란 뜻, 건강에도 영향을 미칠 거란 뜻.

 

플랫폼 - 플랫폼은 공동으로 쓰는, 구조물을 뜻하는데, 유무형의 것을 의미한다. 빅데이터를 공동으로 활용하여(API어플리케이션 프로그램 인터페이스 공개 등으로) 사업자들이 이를 플랫폼처럼 사용할 수 있다. 빅데이터 자체로도, 그리고 빅데이터를 이용하는 것들을 또 플랫폼으로 사용하는 마치 트리구조처럼

 

 

2. 빅데이터로 인한 변화에 대한 이해

 변화 4가지 큰거

사전처리에서 사후처리로

- 일단 모으고, 쓸모있는걸 찾는다.

표본조사에서 전수조사로

- 비용문제 해결(클라우드 컴퓨팅), 데이터 양 폭발적 증가 -> 필요한 정보 재수집이 아닌 데이터 재가공으로 변화하는 목표에 실시간 대응 가능, = 데이터 활용의 융퉁성 증가

정확한 패턴 파악가능, 샘플에서 파악 불가한 정보 창출

질에서 양으로

- 양이 많으면 질은 자동으로 충족된다.

인과관계에서 상관관계로

- 이유보다 사실이 더 가치있게 쓰인다. 이유는 나중에 알 수 있다. < 순전히 금전적 이익적 마인드. 흠 생각이 필요할 듯

 

3. 빅데이터의 가치와 영향 이해

 우선, 빅데이터는 가치 산정이 어렵다는 사실을 알아야 한다. 하나의 목적을 가지고 수집한 데이터도 다른 곳에 활용될 수 있고, 많은 사람들이 사용한다. 가치가 실시간으로 변한다 이 말이다. 그리고 기존에 없던 가치를 창출한다는 것, 예측 가능한 범위의 가치가 아닌 기존에 예측하지 못했던 범위의 정보를 산출하므로 이게 도움이 될 지 안될지를 모른다 이말. 마지막으로 분석기술이 계속 발달하면서, 기존의 분석기술을 통해서는 쓸만한 정보를 산출하지 못한 데이터들이 새로운 가치를 산출할 수 있기도 하게 된다는 것, 그래서 빅데이터는 가치 산출이 어렵다 이거다.

 

맥킨지에서는 2011년에 빅데이터 보고서를 냈고 여기서 빅데이터가 가치를 만들어 내는 방식을 다섯개로 둔다 한다.

투명성 제고 ->연구개발 및 관리 효율성 제고

시뮬레이션 -> 수요 포착 및 주요 변수 탐색 -> 경쟁력 강화

고객 세분화&맞춤서비스 제공

알고리즘 활용 -> 의사결정 보조 OR 대체

비즈니스 모델&제품, 서비스 혁신

 물론 이런 활용은 기업과 정부가 주도적으로 할 것이며, 개인은 낙수효과로 생활 전반이 스마트하게 변화한다함.

그 이익은 얼마나 챙길까? 기업과 정부..

 

영향 엄청나네.

 

 

4. 빅데이터 비즈니스 모델 이해

 2014년 책인데도 여기서 빅데이터 활용 사례는 셀 수 없게 많다고 소개하고 있다. 지금 2024년, 10년이면 강산도 바뀐다던데 얼마나 많은 활용 사례가 추가되었을까... 얼마나 발전했을까?****알아보자

구글-검색 -> 사용자 로그 데이터 활용해 기존의 페이지랭크 알고리즘 혁신.(기존 시스템에 빅데이터 처리방법을 결합)

월마트 구매패턴 분석 -> 매출 상승 (ex/손전등과 비상음식 함께 진열)

의료부분개선 - 빅데이터 활용 

등등 엄청나게 많다. 분야를 막론하고. 모든 분야라 해도 될 정도네..

 

빅데이터 비즈니스 모델 개발 기본 테크닉

7개로 소개하고 있다.

 

연관규칙학습

-월마트같은,

 

유형분석

-데이터의 유형이 무엇이고 어느 범주에 들어가는지

 

유전 알고리즘

-점점 최적화시켜 진화시켜나가는 방식 (ex/최고시청률을위한 방송시간대는?)

 

기계학습

-추천알고리즘 같은 예측중심

 

회귀분석(내가좋아하는거)

-인과관계

 

감정분석

-평가분석, 니즈 파악

 

소셜네트워크분석

-영향력있는 사람 찾기 / 오퍼니언 리더 파악

 

5. 빅데이터로 인한 위기 요인과 통제 방안 이해

 

사생활침해 -> 동의에서 책임으로

 

책임원칙훼손 -> 결과 기반 책임 원칙 고수

 

데이터 오용 -> 알고리즘 접근 허용/ 근데 이거 보고 몇 명이나 알겠어?

그래서 알고리즈미스트라는 여기에 정통한 직업 대두된다.

 

6. 미래의 빅데이터 이해

 빅데이터 활용에 필요한 기본 3요소 

데이터, 기술, 인력.

 

미래엔 모든 것이 데이터화 될것이고(M2M<=IOT의 아버지격이란다,IOT(사물인터넷)확산), 기술은 계속해서 진화할 것이며, 인력은 데이터와 관련해 특화될 것이다. (알고리즈미스트-피해구제사, 데이터 사이언티스트 - hard스킬 + soft 스킬 /hard가 필수제반, soft는 개인역량차가 클 듯)

 

2014년 책이라 그런지 최신화되지 않은 정보들이 있는 듯하다.

도서관에 희망도서로 신규 도서를 신청했다. 받으면 새로 읽어볼 것이다.

posted by 원테이크
2024. 5. 27. 17:59 카테고리 없음

데이터는 최소 단위에서는 의미가 중요하지 않은 객관적인 사실.

 

데이터를 가공하고 처리, 연관관계를 찾는 과정 속에서 의미가 도출되면

 

그것은 바로 '정보'라 한다.

 

정보는 항상 유용한 것은 아니다. (거짓정보 따위를 제외한 사실 정보들에 대해 말하는 것)

 

흔히 말하듯 우리는 정보의 홍수 속에 살고 있다. 

 

정보가 엄청 많다는 거다.

 

그 많은 정보가 모두 유용할 순 없다. 왜냐, 내가 필요한 것과 모든 정보가 연계될 수 없기 때문이다.

 

때문에 내가 필요한 정보를 잘 찾고, 잘 써먹는 게 매우 매우 매우 매우 중요하다.

 

판타지 게임 소설 같은 걸 보면 주인공이 약점 간파 따위의 스킬을 써서 몬스터의 약점을 알아내고 거길 공략하면서 승리를  거머쥐기도 한다.

 

우린 그거다. 우린 약점을 찾는 것처럼 데이터를 엮고, 약점에 칼을 쑤시는 것처럼 엮어낸 데이터로 쓸만한 정보를 창출해내야 한다.

 

그리고 결국엔 몬스터를 쓰러뜨려야 한다. 우리는 부든 명예든 정의든 뭐든 간에 이익을 좇는 학문에 대해 배우는 것이다.

 

데이터는 그러기 위해 사용된다. 편리, 유용, 행복 그런 것들을 모두 포함하는 단어가 바로 '이익'이고,

 

데이터를 분석하고 활용하고 엮어내는 모든 행위는 이익을 찾는 행위이다.

 

데이터를 엮어 정보를 창출하고, 그 중에 유용한 정보를 분류, 타 정보 및 경험과 결합하면 '지식'이 된다.

 

DIKW 피라미드에 대해 설명하고 있는 것이다.

 

그 지식의 축적, 계속된 결합은 '지혜'를 얻게 한다.

 

데이터-정보-지식-지혜

 

얼마나 아름다운 연계인가!

 

데이터베이스는 많고 많고 많고 많은 데이터, 정보 , 지식, 지혜를 저장할 수 있는 공간.

 

더 자세히 말하면 문자, 기호, 음성, 화상, 영상, 많은 컨텐츠들 저장할 수 있는,

 

'컴퓨터'에 저장할 수 있는, '정보통신 기기'에 저장할 수 있는 그런 공간이다.

 

데이터는 숨만 쉬어도 생성되고 있고, 이걸 다 저장하려면 개인 수준으로 관리할 수 없다.

 

그래서 데이터베이스가 나왔고, 계속 발전해서 요즘은 관계형 데이터베이스라는걸 사용한다.

 

그 이전에 파일 시스템 데이터베이스 등에서 점점 진화해서 가장 알맞은 형태로 발전하는 것이다.

 

생명이 진화하려면 몇 세대를 거쳐 몇십 세대를 거쳐야하는데

 

이렇게 과학, 데이터의 발전은 눈부시게 빠르다는 것

 

너무 멋진 일이다... 기하급수적이라는 말은 이런 데 쓰는 것이다.

 

그래도 무섭기는 하다. 이렇게 급변하는 시대에 내가 따라가지 못할까 걱정이되기도 한다.

 

그래서 데이터를 배우기로 했다. 도태는 앎의 부족으로 일어나기에

 

많은 사람들이 데이터를 파고들 수 있도록 공공데이터도 개방되어 있고, 검색의 장도 열려있다.

 

그러나 아직까진 아는 사람들만 이용하고 있는 실정이다.

 

난 그 아는 사람이 되고싶다. 그리고 많은 이들이 살아가는데 나의 손길이 닿았으면 좋겠다.

 

내가 할 수 있을까?

posted by 원테이크
2019. 1. 9. 09:37 개인/아르바이트

관공서 아르바이트,                                                                                          3줄 요약은 맨 밑에 있습니다.


대학생에게는 꿈의 아르바이트라고 해도 과언이 아니다.


관공서 아르바이트는 흔히 현장에서 몸 전체를 사용하는 현장근로와


대부분 손가락만 사용하는 사무근로로 나뉜다 ㅋㅋ.


그 중 꿀이라 불리는 근로는 역시 사무근로다.


얼마 되지않는 할당된 업무를 보고 나면 대부분 시간이 자유시간이기 때문이다.


대학생은 이런 시간에 자격증 공부(토익,한국사,컴활,오픽 등)를 할 수 있기 


때문에 많이들 사무근로를 선호하는 편이다.


그럼에도 현장근로라고 경쟁률이 낮은 것은 아니다. 


상당히 운이 좋아야 할 수 있는 편이다...


오죽하면 근로기관 담당선생님이 관공서 아르바이트 경쟁률이 


근로기관 채용 경쟁률보다 높다고 하시며 웃으셨을까.


3줄 요약


1.사무근로와 현장근로로 나뉨


2.사무근로는 대부분 꿀일 가능성이 높음


3.자격증이나 필요한 공부를 하면 좋음.

posted by 원테이크
prev 1 next