20.03 ~ 20.08 국비교육/Data (Hadoop, R) 13

[R] 설치 및 세팅

통계 프로그램에서 출발해, 간결한 코드, 시각화의 용이성이라는 이유로 현재 큰 인기를 끌고 있다.빅데이터, AI 머신러닝 등에 많이 사용된다. 특징1. R은 Interpreter 언어다. 한 줄씩 실행할 수 있다.특징2. 대입 연산자가 특징3. base 패키지 안에는 약 1100개의 기본 함수가 존재한다.특징4. R에서 데이터는 기본적으로 vector, data.frame, matrix, list, factor와 같은 형태로 존재한다.  *데이터가 많아지면 방향성을 갖게 된다 -> 방향성을 갖는 데이터: vector*x, y축을 갖는 평면적인 데이터(양방향) = matrix*x, y, z : tensor*데이터가 존재한다 = 어떠한 크기(스컬러)가 존재한다.           경로에 한글 ㄴㄴ      ..

[Hadoop] 데이터 입력

데이터를 받을 수 있는 홈페이지    선생님이 올려주신 파일을 받을 것이다.    많은 양의 데이터를 읽을 수 있는 프로그램 다운로드    맨 위의 두 줄을 지워야 한다.    shift + 아래방향 키 + del-> 저장    bin 폴더의 리스트를 확인하다.    mkdir 명령을 사용해 air 폴더를 생성한다.    put 명령을 사용해 데이터 파일을 air 폴더 아래로 옮긴다.    localhost 50070으로 접속하면 하둡 파티션을 확인할 수 있다.    live nodes    데이터노드 정보를 볼 수 있다.    이런 저런 정보를 볼 수 있다.

[Hadoop] Wordcount

1234567891011121314151617181920212223242526272829package wikibooks.hadoop.chapter04; import java.io.IOException;import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper; public class WordCountMapper extendsMapperLongWritable, Text, Text, IntWritable> {//데이터 입력 객체 2..