티스토리 뷰

 

HDFS (Hadoop Distributed File System)

 

I.       HDFS(Hadoop Distributed File System) 개요

-       Master/Slave 구조로 Master Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장하는 하둡 분산 파일 시스템

 

II.      HDFS의 특징 및 읽기 및 쓰기 동작

가.   HDFS의 특징

구분

특징

Data Block

파일을 블록단위로 쪼개서 여러 Data node에 나눠서 저장하고 각 파일의 기본 정보 및 각 블록들의 위치 정보를 Name node에서 관리

Replication

일부 Data node에 장애가 발생하더라도 데이터가 유실되는 것을 막기 위해 각 데이터 블록에 대해서 여러 개의 복제본(Replica) 유지(보통은 3개의 복제본을 유지)

Rack Awareness

랙 단위의 장애에 대해 최대한 가용성을 높이기 위해 데이터 블록의 복제본을 관리할 때 복제본이 한 군데에 몰려 있지 않도록 관리

복제본 개수가 3인 경우 두 개는 같은 랙의 다른 노드에 저장하고 나머지 하나는 다른 랙에 있는 노드에 저장

Data Read(Locality)

사용자가 파일을 읽을 때는 먼저 Name node에 해당 파일 위치 정보를 요청하고 그 정보를 토대로 Data node와 통신하여 파일을 읽음

Data Write

(Consistency)

먼저 Name node에 해당 파일 쓰기 요청을 하면 Name node에서는 기본적인 유효성 검사를 수행

그후 Name node는 데이터를 저장할 Data node 리스트를 사용자에게 전달하고

첫번째 Data node에 데이터를 쓰기 시작하고 다른 Data Node에 복제 데이터를 완료하면 쓰기 작업이 완료

 

나.   읽기 및 쓰기 동작

-       읽기 동작

 

-       쓰기 동작

 

 

 

'Microsft Azure > 고급 분석' 카테고리의 다른 글

데이터 과학자 – Data Scientist  (1) 2013.04.24
D3  (0) 2013.04.22
.NET SDK for Hadoop  (0) 2012.12.14
오픈소스 빅데이터 요소 기술  (0) 2012.11.28
Hadoop  (0) 2012.11.25
댓글