많은 입문자들이 데이터 분석 입문 언어로 R언어를 뽑고 있다. 파이썬과 다르게 R만의 장점이 있다는 것이다. 이 책은 R언어의 입문을 다루는 책이다. 따라서 초보자들이 R스튜디오를 설치하는 방법부터 시작해 데이터 분석을 시작하기에 적합한 책이다. 


이 책에서 소개하는 관점은 다음과 같다.


-전공을 막론하고 초보자가 쉽게 이해하고 따라 할 수 있는 상세한 설명

-데이터 분석에 대해 체계적으로 이해할 수 있도록 기초부터 단계적으로 설명

-분석 결과를 가시적으로 표현하는 시각화 기법에 대한 기본 설명

-현장 밀착형 데이터 핸들링 기법 및 분석 기법에 대한 예시 활용



본인의 실력에 맞게 알맞은 학습 로드맵을 정할 수 있다. 입문기를 다루고 있으며, R이라는 언어의 진입장벽은 낮기 때문에 7일만에 끝낼 수 있다.



챕터 구성은 초보자도 쉽게 이해할 수 있게 구성되어 있다. 프로그램 설치부터 기본기 다지기, 패키지와 함수에 관한 내용까지 다룬다. 패키지란 R언어에 필요한 기능을 추가하는 요소이다. 따라서 사용자가 필요한 패키지를 다운받아 쉽게 설치해 사용한다. 초보자에게는 패키지를 어떻게 활용하는지만 배워도 빠른 속도로 진도를 나아갈 수 있다.



이제 실제 프로젝트를 진행하면 폴더 관리가 중요하다. 코드 실행에 있어 작업 폴더 영역을 설정하고 데이터가 있는 폴더를 구분해 좀 더 직관적인 코드와 구성이 가능하다.



데이터 프레임은 R언어에서 중요한 데이터 타입이다. 리스트형의 확장 형태인 데이터 프레임은 데이터 분석을 좀 더 용이하게 해준다.



R언어의 코드는 직관적이고 간단하며 사용자위주이다. 단 몇줄만으로도 의미있는 데이터 분석이 가능하다는 것이다. 보시다시피 단 한줄로도 변수의 중첩 부분을 정렬해 데이터를 나타낼 수 있다.



R언어에서는 패키지에 대한 이해가 필수이다. 물론 최근의 대부분의 프로그래밍 언어는 패키지와 라이브러리를 활용한 코딩이 대세를 이루기 때문에 패키지와 라이브러리를 원활히 사용할 줄 알아야 한다.


R언어는 CRAN이라는 R언어 패키지 매니저를 통해 관리된다. 따라서 간단한 명령어를 이용해 패키지를 설치할 수 있다. 데이터 분석과 R언어에 필수적인 패키지와 유용하게 사용되는 패키지가 많이 소개되고 있다.



워드클라우드란 단어의 빈도에 따라 글자의 크기를 달리해 시각적으로 빈도가 높은 단어와 낮은 단어를 쉽게 구분할 수 있도록 지원한다. 워드클라우드를 생성할 단어 데이터만 정돈되 있다면, 단 2줄만으로도 워드클라우드를 생성할 수 있다.



ggplot2 패키지는 막대그래프, 꺽은선 그래프, 히스토그램, 산점도 등을 다양한 차트와 그래프를 나타낼 수 있는 R언어의 필수급 패키지입니다. 데이터를 이용한 그래프와 제목, 축 등 다양한 디자인 요소와 함께 googleVis패키지와 함께 사용하면 더욱 좋다.



R언어는 파이썬과 다른 언어들과 함께 데이터 분석에 있어 중요한 도구이다. 그 언어를 사용하는데 있어 수많은 입문서와 활용서들이 존재한다. 그 중 이 책은 R언어를 전혀 모르는 사람부터 시작할 수 있는 훌륭한 입문서이다. 쉬운 구성한 간단한 코드 구성 및 패키지 활용까지 다양하게 알려주고 있다. 


"

여러분을 위한 가장 기초의 R언어 입문서

"



파이썬, SAS, SPSS, R언어등 이 모두 통계 분석에 사용되는 프로그래밍 언어이다. 최근 다른 언어와의 이식성등의 문제로 파이썬이 주목받고 있지만, 여전히 통계학에서는 R을 이용하고 있다. 이러한 R언어를 확실하고 고급지게 배우기 위해서는 이 책이 필요하다. R언어는 여러 가지 특징을 가지고 있다.




▶ 자유롭고 오픈 소스이다. R로 분석한다면 누구나 쉽게 따라 할 수 있다.

▶ 통계적 모형 개발, 기계 학습, 시각화, 데이터를 불러오고 조작하기 위한 다양한 패키지가 있다.

▶ 통계학 및 기계 학습 분야의 연구자들은 논문과 관련된 R 패키지를 함께 공개한다.

▶ 강력한 함수형 프로그래밍 기반 언어이다.

▶ 강력한 메타 프로그래밍 기능을 제공한다. 명료한 함수 작성 및 도메인 특화 언어를 설계하는 훌륭한 환경 제공이 가능하다.

▶ C, Fortran, C++과 같은 고성능 프로그래밍 언어와 연결할 수 있도록 지원한다






그렇다면, 이 책은 누구를 위한 책일까?



▶ R에 대한 조금 더 깊은 이해와 다양한 문제를 해결하는 새로운 전략을 원하는 중급의 R 프로그래머

▶ R을 배우고 있고, R이 동작하는 방식을 이해하고자 하는, 다른 언어를 사용하던 프로그래머



이 책은 R언어를 다루고에 충분히 방대한 중급서이자 레퍼런스로도 사용할 수 있을 만큼 꼼꼼하게 구성돼 있다.


데이터 프레임은 내부적으로 동일한 길이를 가진 벡터로 된 리스트이다


R의 데이터 프레임은 R뿐만 아니라 파이썬과 같은 언어에서도 활발히 사용되는 데이터 구조이므로 쉽게 사용할 수 있다.






파트1까지는 R언어에 대한 기본적인 부분을 다루고 있다. 데이터 구조, 서브세팅, 스타일 가이드, 함수, 객체지향 필드 가이드, 환경, 디버깅등 R언어의 기초적인 내용을 알차게 담고 있다.


S3는 R의 가장 단순한 객체 지향 시스템이다







흔히 R언어 기본서에서는 찾아보기 힘든 스타일 가이드에 대한 내용도 담고 있어 매우 유용하다.


"객체는 함수로 된 데이터이고, 클로저는 데이터로 된 함수다"



LaTex만큼 수식을 맛깔나고 빠르게 적을 수 있는 언어는 없을 것이다


논문을 주로 쓰는 연구자들에게는 LaTex을 R에 이용해 작업 시간을 단축 시킬 수 있다. 


역시나 R을 기피하는 이유는 속도이다. R언어를 사용한다면 이 부분에 꼭 관심을 가지자.

R언어는 고급 언어이다. 따라서 저급 언어에 비해 그 속도가 느릴 수 밖에 없다. GNU R을 컴파일러로 사용하기 때문에 근본적 제약으로 속도가 느릴 수 밖에 없다. 하지만 이 책에서는 R의 속도를 높일 수 있는 방법을 자세히 알려주고 있다. 대부분의 R언어를 사용하는 사람은 통계학자로 컴퓨터학자와는 달리 프로그래밍 언어를 깊게 알지 못하다. 따라서 코드 프로파일링, 리팩토링, 디버깅등 프로그래밍 언어가 거쳐가야할 과정을 올바르게 하지 않고 단순히 코드만 작성하는 경우가 허다하다. R언어를 사용한다면 프로그래밍 언어라는 측면에서 이해해 속도에도 관심을 가져야 된다.




각 절을 마무리하면 마지막에 연습문제가 등장한다. 그때 그때 배운 내용을 바로 확인해보자.


"

R전문가가 알려주는 최고의 리소스 중급서

"



+ Recent posts