본문 바로가기

R 데이터프레임

R data.table 1. data.table? R에는 data handling을 위한 여러가지 패키지들이 있다. 그중 data.table패키지는 가장 많이 사용하는 패키지라 할 수 있다. data.table은 큰 데이터를 탐색, 연산, 병합 하는데 아주 유용하다.data.table의 빠른 속도의 원리는 특정 column을 key값으로 색인을 지정한 후 데이터를 처리한다.따라서 기존의 방식(data.frame)보다 월등히 빠른 속도를 보여준다.현재 data.table 패키지 버전은 1.8.10까지 나와 있으며 R버전 (≥ 2.12.0) 이상부터 지원한다. 2. data.table vs data.frame 여기서 사용하는 데이터 샘플은 titanic data로 여기서 다운로드 받을 수 있다. 가. Data loadlibrary.. 더보기
R 데이터프레임(DF) grep & gsub 이번에는 grep함수와 gsub함수 기능에 대해서 알아보자grep은 해당 조건에 대한 검색으로 데이터프레임에서 like 검색 시 사용할 수 있으며gsub은 문자열 치환 replace기능과 같다. 우선 샘플 데이터프레임을 생성하자model.df 더보기
R 데이터프레임(DF) Select Column Distinct R에서 lm(linear regression)와 같은 분석을 할 경우 해당 데이터프레임 종속변수(관측변수)를 제외한 값이 모두 동일할 경우가 있다. 이와 같은 데이터프레임을 체크 확인하는 방법을 알아보자. 우선 샘플 데이터프레임을 생성하자model.df levels(as.factor(rowMeans(model.df))) [1] "998951.2" "1208963.6" "1315293.2"> length(levels(as.factor(rowMeans(model.df)))) [1] 3결국 해당 데이터프레임의 반복되는 값의 level갯수는 3건 이상이다. 여기서 문제는 분석할 대상의 종속변수 PRICE가 포함되어 있음이다.PRICE값을 제외할 필요가 있다.그렇다면 위 코드를 아래와 같이 수정할 필요가 있다.r.. 더보기
R 데이터프레임(DF) Select Column R에서 lm(linear regression)와 같은 분석을 할 경우 해당 데이터프레임에서 제외할 컬럼이 있을 수 있다.만약 컬럼내의 값이 모두 같으면 분석 대상에서 제외해야 한다.제외하지 않고 lm분석을 할 경우 에러를 발생시킨다. 분석할 데이터프레임에서 분석 대상이 되는 컬럼만 선택하거나 분석 대상에서 제외되는 컬럼을 제거하는 방법을 알아 보자. 우선 샘플 데이터프레임을 생성하자model.df 더보기
R 데이터프레임(DF) Group By Sum R에서 데이터프레임을 Group by Sum하는 방법이다. 우선 샘플 데이터프레임을 생성하자data 더보기
R 데이터프레임(DF) 조건 검색 R에서 데이터프레임을 조건 검색하는 방법이다. 우선 샘플 데이터프레임을 생성하자data 더보기