티스토리 뷰
Hadoop
Big Data와 Hadoop 은 상당히 언급이 많이 되고 있는 사항들입니다.
간략히 Hadoop에 대해서 정리해보았습니다.
가. Hadoop의 정의
- 클라우드의 핵심 기술로써 아파치의 오픈소스 프로젝트중 하나인 대용량 데이터 처리를 위해 대규모 분산처리를 지원하는 프레임워크 (더그 커팅 창시)
- 인터넷 서비스를 위해 대용량 데이터를 대규모 저가 노드 기반 클러스터 시스템에 분산 관리하는 오픈 소스 기술
나. Hadoop 등장배경
- 비정형 파일 데이터의 양이 기하급수적으로 증가 (PB, ZB)
- 대규모의 비정형 데이터 분석을 배치로 처리 요구
- 빅 데이터’에 대한 가장 현실적인 대안 (아마존, 야후, 구글 등에서 활용 중)
다. Hadoop의 구성요소
구분 |
내용 |
HDFS |
-Hadoop Distributed File System -Master/Slave 구조로 HDFS에서 Master는 Name node, Slave는 Data node -Master인 Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장 |
MapReduce |
-분산 처리 시스템 -Master/Slave 구조로 각각 JobTracker와 TaskTracker -HDFS에 분산 저장된 데이터를 여러 대의 TaskTracker에서 병렬로 처리함으로써 대용량의 데이터를 빠르게 처리하고자 만들어진 시스템 |
- 구글, 야후 등 파일, 데이터 검색, 로그 분석
- 파일, 문서 등 비정형 데이터 처리
- 유전자 염기 서열 분석
- 통신사 등의 대용량 로그 데이터 처리
- 대용량의 이미지 데이터 처리
- 교통 흐름을 분석하거나 위치 정보와 연비 상황을 분석
Hadoop 에 대한 내용은 아래 링크를 참조할 수 있습니다.
'SQL' 카테고리의 다른 글
SQL Server 2012의 강화된 T-SQL : 페이징 - OffSet/Fetch (0) | 2012.03.14 |
---|---|
SQL Server 2012 RTM (0) | 2012.03.07 |
Big Data (0) | 2012.01.19 |
SQL Server 2012 RC (0) | 2011.11.19 |
PASS Summit 2011 – Big Data (0) | 2011.10.15 |
- Total
- Today
- Yesterday
- Power BI Desktop
- Cloud
- Power BI
- Visual Studio 2010
- 페이지를 매긴 보고서
- Power BI Copilot
- SharePoint 2013
- sql server 2012
- 목표
- Windows Azure
- 정홍주
- sharepoint
- SQL Azure
- Power BI Desktop 업데이트
- Microsoft Fabric
- Power BI Desktop Update
- SharePoint Online
- Power BI Update
- Windows Azure 업데이트
- Windows Azure Mobile Services
- SharePoint Object Model
- copilot
- Windows Phone 7
- 클라우드
- 업데이트
- Power BI 업데이트
- SharePoint 2010
- redJu
- hongju
- Paginated Report
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |