파이썬을 활용한 머신러닝 쿡북

 

파이썬을 활용한 머신러닝 쿡북

파이썬을 활용한 머신러닝 쿡북

크리스 알본 저/박해선

200개 비법 레시피로 실무 머신러닝 문제를 쉽고 빠르게 해결하기 200여 개의 비법 레시피를 제공하는 이 책은 실무에서 접하는 다양한 머신러닝 문제를 해결하도록 도와준다. 판다스나 사이킷런 같은 파이썬 라이브러리로 데이터 적재, 텍스트나 수치형 데이터 다루기, 모델 선택, 차원 축소 등 다양한 문제를 해결할 수...

 

 

 

그동안 많은 파이썬 머신러닝 관련 도서를 봤다. 하지만 역시 박해선 역자님의 '파이썬을 활용한 머신러닝 쿡북'은 그 중에서도 가장 좋은 도서이다. 파이썬 데이터 분석부터 머신러닝, 신경망까지 다룰 수 있는 도서로서 다양한 실전 문제 해결 200선이 담겨있다. 

 

Numpy를 활용한 벡터, 행렬등의 연산부터 시작한다. 행렬식 계산에는 numy만큼 좋은 라이브러리가 없다. 다음으로 데이터 적재는 sklearn의 datasets 라이브러리를 이용한다. 이를 이용해 샘플 데이터를 적재하고 모의 데이터셋을 만들어본다. 그 후 이를 CSV, 엑셀, JSON과 같은 형태로 적재해본다. 

 

3장의 데이터 랭글링은 다소 생소할 수 있다. 한마디로 데이터프레임을 다룬다. Pandas 라이브러리를 이용하게 된다. 데이터프레임은 우리가 흔히 볼 수 있는 열과 행으로 이뤄진 데이터로 일반사람들이 가장 익숙한 데이터 자료형이라고 할 수 있다. 값을 치환하고, 열 이름을 바꾸고, 최솟값 ,최댓값등을 찾아본다. 누락된 값을 다루고 그룹핑하는 등 일반적인 데이터 분석을 전반적으로 배워본다. 전반적으로 코드가 간단하고 가독성이 좋아 파이썬에 대한 어느정도 기본기가 있다면 쉽게 이해할 수 있다.

 

6장에서는 텍스트를 다뤄본다. BeautifulSoup와 Regular Expression등의 라이브러리를 이용해, 텍스트 및 HTML을 다뤄본다. 나아가 nltk 라이브러리를 활용해 다양한 품사를 태깅하고 어간을 추출하고 단어 중요도에 가중치를 부여하는 등 간단한 텍스트 처리를 해본다. 7장에서는 시계열 데이터이다. 날짜와 시간을 이용해서 시계열 데이터를 다뤄본다. 8장은 이미지 다루기이다. OpenCV 영상인식 라이브러리를 사용해 이미지를 로드하고 크기를 변경하는 등 이미지를 다뤄본다. 

 

어떻게 보면 9장부터가 진정한 머신러닝이라고 할 수 있다. sklearn 라이브러리를 이용해 주성분 분석을 해본다. 특성을 줄이고, 차원을 줄이는 등 나아가 선형회귀까지 다뤄본다. 14장의 결정 트리와 랜덤 포레스트는 대표적인 머신러닝 기법 중 하나이다. 결정 트리는 전체 모델을 그래프로 나타낼 수 있어 직관적으로 시각화가 가능하다. 17장의 서포터 벡터 머신도 대표적인 기법이다. 마찬가지로 sklearn 라이브러리를 이용해서 샘플의 경계를 나타내는 초평면을 matplotlib를 이용해 그려본다. 

 

19장에서는 k- 평균을 사용한 군집 분석을 해보며, 20장에서는 신경망에 대해 다루는데, 신경망을 구성해 이진, 다중 분류기 훈련등을 해본다. 그 후 예측과 시각화 오버피팅을 줄여보는 작업을 한다. 

 

이 책은 아마존 베스트셀러인 Machine Learning with Python Cookbook를 번역한 도서로 머신러닝 작업에 필요한 핵심 조리법을 알차게 담고 있다. 특히나 책이 모두 컬러판으로 출판사의 신경이 많이 쓰였다. 역자의 '덧붙임'을 통해 레시피에서 다루지 못한 내용을 추가적으로 설명해주고 있다. 박해선 역자님의 블로그에는 책에 관련된 이야기 및 코드도 있으니 참고하면 좋다.

 

전반적인 책의 구성이 간단하고 알차게 이뤄져있다. 머신러닝의 개괄적인 내용부터 데이터 분석 기본까지 다루고 싶다면 이 책을 꼭 추천한다.

 

 

 

+ Recent posts