일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 三井住友カード
- 釜つる
- javascript
- pyenv
- 체코
- react.js
- PayPay
- 熱海
- typescript
- Selenium
- local
- 페이페이
- 태국
- Python
- 방콕
- duckdb
- PostgreSQL
- CSV
- 뮌헨
- 카마츠루
- terraform
- node.js
- 아타미
- documentdb
- vba
- 프라하
- 메르페이
- codebuild
- 미츠이 스미토모
- JenkinsFile
- Today
- Total
도쿄사는 외노자
Hadoop 스터디 관련 본문
0. Hadoop이란?
하둡의 화두는 '분산' 입니다.
하둡은 '처리(계산)' 와 '저장'이라는 두 가지 큰 요소를 '분산'이라는 주제로 결합한 것입니다.
이는 곧 '분산처리' 와 '분산저장' 이라고 보면 되겠습니다.
간단히 말하자면, 여러개의 저가형 컴퓨터를 마치 하나인 것처럼 묶어주는 기술이라고 보면 됩니다.
(이를 통해 계산 능력과 저장 공간을 늘릴 수 있습니다.)
분산처리
맵 리듀스(Map Reduce)라는 프레임워크를 이용해서 분산 처리를 실시합니다.
Map Reduce는 Map과 Reduce 라는 두가지 형식으로 나누어 집니다. Map 함수에서 데이타를 처리하고, Reduce 함수에서 원하는 결과값을 계산시킵니다.
이 프레임워크에 맞추어서 코딩을 하고, 하둡 시스템에서 이를 실행하면 자동으로 분산처리가 실시됩니다.
분산저장
하둡 파일시스템(HDFS: Hadoop Distributed File System)은 파일을 적당한 블록 사이즈(64MB)로 나누어 각 노드 클러스터(각각의 개별 컴퓨터)에 저장합니다. 또한 데이타 유실의 위험이나 사람들이 많이 접근(Access)할 때의 부하처리를 위해서 각 블록의 복사본 (Replication)을 만들어 둡니다. (보통 복사본은 최소 3카피 정도)
고성능 서버에서 저장공간은 돈이 많이 들어가는 부분입니다. 그것을 저가형 저장소 여러개를 묶어서 마치 레이드처럼 동작시키려는 목적으로 분산저장을 하는 것입니다.
간단히 설명하자면
보통의 OS 가 파일시스템과 잡스케쥴러를 기반으로 구성됨을 볼 때,
하둡은 분산을 지원하기 위해 만든 '자바를 이용한 가상 OS'와 같은 개념으로 보면 될 것입니다.
출처 : http://crazia.tistory.com/741
1. MAPR Academy
https://training.mapr.com/
2. 구루비 Hadoop 완벽 가이드 정리본
http://wiki.gurubee.net/pages/viewpage.action?pageId=23232525
'Tech > Hadoop' 카테고리의 다른 글
[차후 한글화 예정] Hadoop 첫걸음 (0) | 2017.04.20 |
---|---|
Hadoop 完全分散モードでSetting (0) | 2015.10.10 |