티스토리 뷰

SQL

Hadoop

정홍주 2012. 2. 13. 22:56

Hadoop

Big Data와 Hadoop 은 상당히 언급이 많이 되고 있는 사항들입니다.

간략히 Hadoop에 대해서 정리해보았습니다.

가. Hadoop의 정의

- 클라우드의 핵심 기술로써 아파치의 오픈소스 프로젝트중 하나인 대용량 데이터 처리를 위해 대규모 분산처리를 지원하는 프레임워크 (더그 커팅 창시)

- 인터넷 서비스를 위해 대용량 데이터를 대규모 저가 노드 기반 클러스터 시스템에 분산 관리하는 오픈 소스 기술

나. Hadoop 등장배경

- 비정형 파일 데이터의 양이 기하급수적으로 증가 (PB, ZB)

- 대규모의 비정형 데이터 분석을 배치로 처리 요구

- 빅 데이터’에 대한 가장 현실적인 대안 (아마존, 야후, 구글 등에서 활용 중)

다. Hadoop의 구성요소

구분

내용

HDFS

-Hadoop Distributed File System

-Master/Slave 구조로 HDFS에서 Master는 Name node, Slave는 Data node

-Master인 Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장

MapReduce

-분산 처리 시스템

-Master/Slave 구조로 각각 JobTracker와 TaskTracker

-HDFS에 분산 저장된 데이터를 여러 대의 TaskTracker에서 병렬로 처리함으로써 대용량의 데이터를 빠르게 처리하고자 만들어진 시스템

라. Hadoop의 활용

- 구글, 야후 등 파일, 데이터 검색, 로그 분석

- 파일, 문서 등 비정형 데이터 처리

- 유전자 염기 서열 분석

- 통신사 등의 대용량 로그 데이터 처리

- 대용량의 이미지 데이터 처리

- 교통 흐름을 분석하거나 위치 정보와 연비 상황을 분석

Hadoop 에 대한 내용은 아래 링크를 참조할 수 있습니다.

http://hadoop.apache.org/

'SQL' 카테고리의 다른 글

SQL Server 2012의 강화된 T-SQL : 페이징 - OffSet/Fetch (0)	2012.03.14
SQL Server 2012 RTM (0)	2012.03.07
Big Data (0)	2012.01.19
SQL Server 2012 RC (0)	2011.11.19
PASS Summit 2011 – Big Data (0)	2011.10.15

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

redJu(홍주)

티스토리 뷰

Hadoop

Hadoop

'SQL' 카테고리의 다른 글

티스토리툴바