본문 바로가기

Hadoop

R on Hadoop and Amazon EMR Amazon EMR은 R을 지원한다. AMI Versions 3.0.0 이상부터는 Hadoop과 함께 R 3.0.2버전이 함께 Includes되어 설치된다. 현재 R최신버전은 3.1.1이지만 R 3.0.2버전이면 거의 최신버전이라고 할 수 있다. Amazon 서비스에서 R을 지원하기 때문에 EMR을 이용하여 R Script를 실행하는 방법을 알아보고자 한다. 우선 고려해야 될 사항을 나열해보면 아래와 같다. 첫째 AMI를 통해 설치되는 R버전이 내가 사용하고자 하는 R package에서 지원하는 버전대인지? 둘째 EMR Hadoop Cluster 세팅 시 R은 설치 되지만 R Package는 설치되지 않기 때문에 설치가 가는한지? 우선 첫번째 문제부터 살펴보면 R 3.0.2버전이면 거의 왠만한 R pac.. 더보기
맵리듀스에서 RDBMS로 인서트 시 GC overhead limit exceeded Issue 맵리듀스에서 리듀스 출력결과를 RDBMS로 저장 시 GC overhead limit exceeded Issue가 발생한다.해당 Issue는 리듀스 출력결과가 즉 RDBMS로 저장되어야 하는 데이터가 많은 경우 발생하게 된다. 맵리듀스에서 RDBMS로 Insert하기 위해 org.apache.hadoop.mapreduce.lib.db.DBOutputFormat(링크)를 사용한다. 해당 소스를 까보면 리듀스 출력결과로 Insert문자열을 생성하여 addBatch()로 보관 후 DB Connection이 close될때 executeBatch()가 실행되고 commit()이 실행된다. 즉 대량의 데이터가 한번에 Insert되는 것이다.해당 Issue와 관련해서 Cloudera블로그에도 관련 글이 존재한다. (링.. 더보기
HBase local setting HBase의 간단한 명령어를 학습하기 위하여 HBase를 로컬에 세팅하는 방법이다. 우선 아파치 HBase 릴리즈 사이트에서 최신 HBase 파일을 내려받는다.(링크) 적당한 폴더에 압축을 풀면 OK! $ tar -zxvf hbase-0.94.8.tar.gz 압축해제한 디렉토리 이제 로컬에서 HDFS역할을 해줄 데이터 디렉토리를 설정해주어야 한다. 이를 위해 설정파일 conf/hbase-site.xml파일을 수정해준다. $ vi conf/hbase-site.xml 아래구문을 configuration에 추가해준다. hbase.rootdir file:///{yourpath}/hbase ※ 체크포인트 : 쓰기권한 HBase 실행$ bin/start-hbase.shstarting master, logging t.. 더보기