IT 대기업, 소셜 미디어 서비스 등에서 빅데이터 분석 및 처리에 하둡(Apache Hadoop)을 앞다투어 사용하고 있습니다. 하둡은 대량의 자료를 적은 비용으로 수집 및 가공처리할 수 있도록 만들어진 자바(Java) 언어 기반의 프레임워크로, 대규모 데이터 세트를 분산 저장하고 처리해 줍니다.
기업들은 데이터 분석을 통해 새로운 시장을 개척하고 희소성있는 가치를 부여하며, 소비자들에게 필요한 정보를 적기에 제공할 수 있게 될 겁니다. 중소기업 또한 빅데이터는 꼭 다뤄야 할 필수 사항인 만큼, 빅데이터 관련 직무로 취업/이직을 꿈꾸는 분들께는 희소식이 아닐 수 없습니다.
▶학습대상
1. 하둡 프로그래밍를 처음 접하시는 학습자
2. 학습내용의 용어, 수행방법 등에 대한 기본기를 탄탄히 다지고 싶으신 학습자
3. 이론 내용을 실무와 함께 습득하고 싶으신 학습자
▶학습목차
1. Hadoop, HDFS 그리고 YARN
2. Linux 설치 및 환경설정
3. Hadoop 설치
4. Hadoop 실행 및 HDFS 명령어
5. Map Reduce를 이용한 Word count 구현 1
6. Map Reduce를 이용한 Word count 구현 2
7. CDC COVID-19 데이터를 이용한 월별 확진자 통계 1
8. CDC COVID-19 데이터를 이용한 월별 확진자 통계 2
9. CDC COVID-19 데이터를 이용한 연령별 확진자 통계
10. 사용자 정의 옵션 사용 1
11. 사용자 정의 옵션 사용 2
12. 사용자 정의 카운터 구현 1
13. 사용자 정의 카운터 구현 2
14. MultipleOutputs 구현
15. 사용자 정렬 구현 1
16. 사용자 정렬 구현 2
17. HIve 소개 및 설치
18. HiveQL을 이용한 Map Reduce 연산 1
19. HiveQL을 이용한 Map Reduce 연산 2
20. Hive Java Client
▶수료기준
항목 |
진도율 |
진행단계평가 |
최종평가 |
과제 |
수료점수 |
평가비율 |
100% |
0% |
0% |
0% |
60점이상 |
수료조건 |
80% |
없음 |
없음 |
없음 |
※ 수료기준은 각 평가항목의 점수가 수료기준 점수 이상이고 총점이 60점 이상이어야 합니다.