오늘날 우리 세계는 빅데이터 세계이다. 과거부터 축적된 데이터의 역할이 오늘날 주목받고 있다. 통계학, 인공지능, 컴퓨터과학, 공학, 금융, 인문등 여러 분야에서 데이터 과학을 다루는 입장이 되어버린 것이다. 미국에서 근무한 한국인 데이터 과학자 김옥기 저자의 '데이터 과학 무엇을 하는가?'. 실제 데이터를 다루는 사람이 전해주는 데이터 과학 이야기를 사례와 함께 풀어나가보자.


빅데이터 분석에서는 흐름이라는 것이 있다. 데이터를 수집하고, 전처리 과정을 거치고, 모델에 입력하고, 결과를 출력하는 등 프로세스에 맞게 각 작업이 이뤄지길 마련이다.


빅데이터 플랫폼 구성도

데이터 과학자가 되기까지 겪어야 할 과정은 다양하다. 기본적으로 수리통계학, 기계 학습, 수리 경제학, 신호처리등 여러 분야에서 데이터 과학자가 되는 길이 존재한다. 대부분의 데이터 과학자는 석사 및 박사 학위를 가지고 있다. 그만큼 깊은 수준의 지식과 응용이 필요하다는 것이다. 우수한 분석 알고리즘과 프로그래밍 언어 및 툴을 사용할 줄 알아야한다.


데이터 과학자가 되기까지는...

이 책은 저자가 업무에서 겪을 내용부터 데이터 과학자가 되기까지의 이야기를 담고 있다. 사례와 실제 회사 위주의 이야기도 있으며, 분석을 과정도 잘 담고 있다.


데이터 과학자가 되려면?

실제로 데이터 분석 툴을 이용해 분석할 시 출력되는 결과를 보여주고 있다. 단순히 데이터 과학자는 이론만 이해할 것이 아니라, 실무에서도 툴을 효율적이고 효과적으로 사용할 줄 알아야함을 보여준다. 데이터 과학자에게 필요한 지식뿐만 아니라 과정도 친절히 알려주고 있다.


데이터 과학자에게는 원할한 툴 사용 능력도 필요하다

기계 학습은 1960년부터 그 역사가 시작된다고 도표에서 보여주고 있다. 인지 학습부터 시작해, 신경망, 의자 결정 나무, 랜덤 포레스트, 딥러닝등 오늘날까지 주목 받는 기계 학습의 활용 추세를 보여주고 있다.


기계 학습 발전 및 활용 추세

누구나 관심 있어하는 버스 운행 노선에 관련된 문제이다. KT의 통화 데이터를 사용해 심야 버스 노선 운행을 최적화했는데, SKT, LG 통신사의 데이터도 있었으면 더 정확했을지도 모른다. 노드간의 가중치를 학습해 좀 더 의미 있는 가중치를 뒀다면 좀 더 제대로된 버스 운행 노선이 신설되거나 변경되지 않았을까 싶다.


서울시는 통화 데이터를 어디에 적용했을까?

데이터 분석하는 방법에는 여러 가지가 있다. 데이터를 분석할 때 중요한 것은 변수이다. 어떤 것이 독립 변수이고 종속 변수인지 파악하고, 필요없는 변수는 없애고 의미 있는 변수는 강조하는 등 변수를 잘 다뤄야한다.


데이터 분석의 시작

공공 데이터는 그 활용도가 무궁무진하다. 누구에게나 공개되어 있고, 쉽게 접근할 수 있을 만큼 지금까지도 그 활용이 기대되고 있다. 하지만 이 데이터를 제대로 다룰 전문가는 아직까지 부족한 실정이다. 향후 정부, 공공기관, 금융, 물류, 영업등 모든 산업에서 이러한 공공 데이터를 활용해 효율적으로 업무를 진행해야 할 것이다.


공공 데이터 활용하기


"

데이터 과학은 어디로 흘러가고 있고, 앞으로 우리는 어떻게 해야할까?

실무 20년 데이터 과학자에게 배워보자!
"


+ Recent posts