본문 바로가기

amazon

R on Hadoop and Amazon EMR Amazon EMR은 R을 지원한다. AMI Versions 3.0.0 이상부터는 Hadoop과 함께 R 3.0.2버전이 함께 Includes되어 설치된다. 현재 R최신버전은 3.1.1이지만 R 3.0.2버전이면 거의 최신버전이라고 할 수 있다. Amazon 서비스에서 R을 지원하기 때문에 EMR을 이용하여 R Script를 실행하는 방법을 알아보고자 한다. 우선 고려해야 될 사항을 나열해보면 아래와 같다. 첫째 AMI를 통해 설치되는 R버전이 내가 사용하고자 하는 R package에서 지원하는 버전대인지? 둘째 EMR Hadoop Cluster 세팅 시 R은 설치 되지만 R Package는 설치되지 않기 때문에 설치가 가는한지? 우선 첫번째 문제부터 살펴보면 R 3.0.2버전이면 거의 왠만한 R pac.. 더보기
AWS JAVA SDK를 이용한 EMR(Elastic MapReduce) Job Flow 생성 및 실행 AWS JAVA SDK를 이용하여 개발한 MapReduce를 EMR Custom Jar로 등록하여 Job Flow를 생성 및 실행하는 방법이다. private static final String EMR_SETUP_NAME = "Setup hadoop debugging"; private static final String HADOOP_SETUP_JAR = "s3://elasticmapreduce/libs/script-runner/script-runner.jar"; private static final List HADOOP_SETUP_ARGS_AS_LIST = Arrays.asList("s3://elasticmapreduce/libs/state-pusher/0.1/fetch"); private static .. 더보기
S3 전체 파일 리스트 가져오기 S3 특정 bucket에 저장된 Object 파일리스트 목록을 가져올때 아래와 같이 코딩을 할 수 있다. AWSCredentials crd = new BasicAWSCredentials(accessKey, secretKey); AmazonS3 s3 = new AmazonS3Client(crd); ObjectListing objects = s3.listObjects(bucketName, folderName); do { //1000개 단위로 읽음 for (S3ObjectSummary objectSummary : objects.getObjectSummaries()) { } objects = s3.listNextBatchOfObjects(objects); 더보기