티스토리 뷰

SQL

Hadoop

정홍주 2012. 2. 13. 22:56

Hadoop

Big DataHadoop 은 상당히 언급이 많이 되고 있는 사항들입니다.

간략히 Hadoop에 대해서 정리해보았습니다.

가.   Hadoop의 정의

-       클라우드의 핵심 기술로써 아파치의 오픈소스 프로젝트중 하나인 대용량 데이터 처리를 위해 대규모 분산처리를 지원하는 프레임워크 (더그 커팅 창시)

-       인터넷 서비스를 위해 대용량 데이터를 대규모 저가 노드 기반 클러스터 시스템에 분산 관리하는 오픈 소스 기술

나.   Hadoop 등장배경

-       비정형 파일 데이터의 양이 기하급수적으로 증가 (PB, ZB)

-       대규모의 비정형 데이터 분석을 배치로 처리 요구

-       빅 데이터에 대한 가장 현실적인 대안 (아마존, 야후, 구글 등에서 활용 중)

 

다.   Hadoop의 구성요소

 구분

내용

HDFS

-Hadoop Distributed File System

-Master/Slave 구조로 HDFS에서 Master Name node, Slave Data node

-Master Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장

MapReduce

-분산 처리 시스템

-Master/Slave 구조로 각각 JobTracker TaskTracker

-HDFS에 분산 저장된 데이터를 여러 대의 TaskTracker에서 병렬로 처리함으로써 대용량의 데이터를 빠르게 처리하고자 만들어진 시스템

 

 라.   Hadoop의 활용

-       구글, 야후 등 파일, 데이터 검색, 로그 분석

-       파일, 문서 등 비정형 데이터 처리

-       유전자 염기 서열 분석

-       통신사 등의 대용량 로그 데이터 처리

-       대용량의 이미지 데이터 처리

-       교통 흐름을 분석하거나 위치 정보와 연비 상황을 분석

 

 

Hadoop 에 대한 내용은 아래 링크를 참조할 수 있습니다.

http://hadoop.apache.org/

 

'SQL' 카테고리의 다른 글

SQL Server 2012의 강화된 T-SQL : 페이징 - OffSet/Fetch  (0) 2012.03.14
SQL Server 2012 RTM  (0) 2012.03.07
Big Data  (0) 2012.01.19
SQL Server 2012 RC  (0) 2011.11.19
PASS Summit 2011 – Big Data  (0) 2011.10.15
댓글