본문 바로가기

R data.table 1. data.table? R에는 data handling을 위한 여러가지 패키지들이 있다. 그중 data.table패키지는 가장 많이 사용하는 패키지라 할 수 있다. data.table은 큰 데이터를 탐색, 연산, 병합 하는데 아주 유용하다.data.table의 빠른 속도의 원리는 특정 column을 key값으로 색인을 지정한 후 데이터를 처리한다.따라서 기존의 방식(data.frame)보다 월등히 빠른 속도를 보여준다.현재 data.table 패키지 버전은 1.8.10까지 나와 있으며 R버전 (≥ 2.12.0) 이상부터 지원한다. 2. data.table vs data.frame 여기서 사용하는 데이터 샘플은 titanic data로 여기서 다운로드 받을 수 있다. 가. Data loadlibrary.. 더보기
R 상위버전 설치 Ubuntu를 사용하는 유저라면 R을 아래와 같이 설치할 수 있다. $ sudo apt-get install r-base 설치후 아래와 같은 명령어로 R version을 확인해보면 아마도? 메이비? 2.14 version이 설치되어 있을 것이오!!R.Version()물론 해당 버전으로 R을 사용하는데 크게 문제는 없다. 하지만... 말이오... 일부 Package의 경우 하위 R버전을 지원하지 않는단 말이오!!! 말이오~~~ ^^ 2.15 이상이거나 3.0 이상부터 지원하는 Package도 꽤 많다오... 그래서 우린 뛰어난 똑똑이들이 만들어놓은 Package를 R version의 문제로 사용 못하게 되는 일이 없도록 R 상위버전을 설치할 필요가 있다... 그래서 방법을 알려주겠소... sources.l.. 더보기
R DB Connection R에서 일반적인 분석 방법은 아래와 같다.1. DB에서 분석할 데이터를 가져와 csv, txt와 같은 파일 형태로 생성한다.2. R에서는 각종 read 함수를 이용하여 생성한 파일을 메모리에 올려 분석 작업을 진행한다. 이 방법의 단점은 R에서 분석하기 위해서는 DB에서 데이터를 가공해서 파일로 전달할때 까지 기다려야 한다는 것이다.분석가와 DBA간의 커뮤니케이션에 문제가 있을 경우 위 1,2번의 작업을 몇 차례나 더 해야 할 수도 있다. 그래서 이번에는 R에서 직접 RDBMS를 Conncetion하는 방법을 알아보고자 한다.이 방법의 장점은 SQL을 조금만 알면 분석가는 DBA에게 데이터를 요청할 필요도 없으며 SQL로 쉽게 데이터를 선 정제 후 R에서 분석가능하다. 여기서 부터 아래 작업은 Ubunt.. 더보기