티스토리 뷰
HDFS (Hadoop Distributed File System)
I. HDFS(Hadoop Distributed File System) 개요
- Master/Slave 구조로 Master인 Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장하는 하둡 분산 파일 시스템
II. HDFS의 특징 및 읽기 및 쓰기 동작
가. HDFS의 특징
구분 |
특징 |
Data Block |
파일을 블록단위로 쪼개서 여러 Data node에 나눠서 저장하고 각 파일의 기본 정보 및 각 블록들의 위치 정보를 Name node에서 관리 |
Replication |
일부 Data node에 장애가 발생하더라도 데이터가 유실되는 것을 막기 위해 각 데이터 블록에 대해서 여러 개의 복제본(Replica) 유지(보통은 3개의 복제본을 유지) |
Rack Awareness |
랙 단위의 장애에 대해 최대한 가용성을 높이기 위해 데이터 블록의 복제본을 관리할 때 복제본이 한 군데에 몰려 있지 않도록 관리 복제본 개수가 3인 경우 두 개는 같은 랙의 다른 노드에 저장하고 나머지 하나는 다른 랙에 있는 노드에 저장 |
Data Read(Locality) |
사용자가 파일을 읽을 때는 먼저 Name node에 해당 파일 위치 정보를 요청하고 그 정보를 토대로 Data node와 통신하여 파일을 읽음 |
Data Write (Consistency) |
먼저 Name node에 해당 파일 쓰기 요청을 하면 Name node에서는 기본적인 유효성 검사를 수행 그후 Name node는 데이터를 저장할 Data node 리스트를 사용자에게 전달하고 첫번째 Data node에 데이터를 쓰기 시작하고 다른 Data Node에 복제 데이터를 완료하면 쓰기 작업이 완료 |
나. 읽기 및 쓰기 동작
- 읽기 동작
- 쓰기 동작
'Microsft Azure > 고급 분석' 카테고리의 다른 글
데이터 과학자 – Data Scientist (1) | 2013.04.24 |
---|---|
D3 (0) | 2013.04.22 |
.NET SDK for Hadoop (0) | 2012.12.14 |
오픈소스 빅데이터 요소 기술 (0) | 2012.11.28 |
Hadoop (0) | 2012.11.25 |
- Total
- Today
- Yesterday
- 정홍주
- hongju
- SharePoint Online
- 페이지를 매긴 보고서
- SharePoint 2013
- Windows Azure
- 업데이트
- Windows Azure Mobile Services
- SharePoint Object Model
- Power BI Desktop Update
- Paginated Report
- Power BI Desktop
- Visual Studio 2010
- Power BI 업데이트
- Power BI Copilot
- sharepoint
- copilot
- sql server 2012
- Windows Phone 7
- SQL Azure
- Windows Azure 업데이트
- Microsoft Fabric
- Power BI Update
- Power BI
- redJu
- SharePoint 2010
- 클라우드
- Cloud
- Power BI Desktop 업데이트
- 목표
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |