블로그 이미지
정홍주
Azure에 대한 내용뿐만 아니라 새로운 트렌드로 빅데이터, BI, SharePoint, 앱 등의 내용을 다룹니다.

calendar

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

Notice

'Hadoop'에 해당되는 글 6

  1. 2013.10.29 Windows Azure HDInsight GA(Generally Available)
  2. 2013.03.19 Windows Azure HDInsight – Hadoop
  3. 2012.12.14 HDFS (Hadoop Distributed File System)(1)
  4. 2012.11.25 Hadoop
  5. 2012.02.14 Apache Hadoop On Windows
  6. 2012.02.13 Hadoop
2013.10.29 08:00 Microsft Azure

Windows Azure HDInsight GA(Generally Available)

 

금일 새벽 메일을 받았는데 Windows AzureHDInsight GA(Generally Available) 로 변경되었다는 내용입니다.

바로 Windows Azure 관리 포털의 왼쪽 메뉴에서 HDInsight를 아래와 같이 확인이 가능합니다. 

또는 새로 만들기, 데이터서비스에서 HDInsight 메뉴를 확인할 수 있습니다.

 

HDInsight Apache Hadoop 플랫폼이 클라우드에서 지원되는 것으로 Hive를 이용하여 빅데이터를 접근할 수 있는 서비스입니다. Name Node Compute Node 로 나뉘어져 클러스터로 구성되며 하둡분산파일시스템(HDFS)와 병렬처리(MapReduce)로 구성되어 있습니다. 

 

가격에 대한 중요한 사항은 알고 넘어가야 하니 참고하십시오. 일단 Name Node Compute Node의 가격은 상이합니다. 2013 11 30일까지는 Preview 요금이 부과되며 12월부터는 정식 요금이 부과됩니다. 인스턴스의 사이즈도 12월부터는 변경됩니다. 

구분

1130

12 1

Name Node

가격

\384/시간

\768/시간

인스턴스크기

4

8

Compute Node

가격

\192/시간

\384/시간

인스턴스크기

2

4

 

 

 

 

빅데이터를 Windows Azure 를 통해서 접근해볼 수 있습니다. 또한 로컬에서 직접 구성할 수 도 있습니다.

 

 

신고
posted by 정홍주
2013.03.19 08:35 Microsft Azure

 

Windows Azure HDInsight – Hadoop

 

오늘 새벽 HDInsight Public Preview가 나왔다는 메일을 받아서 아래와 같이 확인해보았습니다. 이전까지는 사전 신청자에 한해서만 테스트가 되었는데 Windows Azure 관리 포털에서 액세스 가능합니다. 

HDInsight가 어떤 기능인지는 아래 링크를 확인해보시면 됩니다.

http://www.windowsazure.com/ko-kr/home/features/hdinsight/

HDInsight 100% Apache Hadoop 솔루션을 클라우드에 가져오는 Microsoft Hadoop 기반 서비스입니다. HDInsight 구조화 여부 크기에 관계없이 모든 형식의 데이터를 관리하는 현대적인 클라우드 기반 데이터 플랫폼을 통해 데이터의 완전한 가치를 얻을 있도록 합니다.

 

Hive ODBC를 통해 Excel에서도 빅데이터를 접근할 수 있습니다 

Windows Azure 관리 포털의 계정 메뉴에서 미리보기 기능을 클릭하시면 아래와 같은 Preview를 볼 수 있습니다
 

 

관련하여 Scott 의 블로그 게시물에 대한 링크가 있으니 참고하십시오.

http://weblogs.asp.net/scottgu/archive/2013/03/18/windows-azure-new-hadoop-service-html5-js-cors-phonegap-mercurial-and-dropbox-support.aspx

 

HDInsight 에 대한 자습서 등의 참조자료는 아래 링크에 자세히 나와있으니 참고하시면 됩니다.

http://www.windowsazure.com/en-us/manage/services/hdinsight/get-started-hdinsight/?fb=ko-kr

http://www.windowsazure.com/en-us/manage/services/hdinsight/?fb=ko-kr

 

당분간 구체적으로 접근해볼 예정입니다.

 

신고
posted by 정홍주
2012.12.14 11:25 Microsft Azure/고급 분석

 

HDFS (Hadoop Distributed File System)

 

I.       HDFS(Hadoop Distributed File System) 개요

-       Master/Slave 구조로 Master Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장하는 하둡 분산 파일 시스템

 

II.      HDFS의 특징 및 읽기 및 쓰기 동작

가.   HDFS의 특징

구분

특징

Data Block

파일을 블록단위로 쪼개서 여러 Data node에 나눠서 저장하고 각 파일의 기본 정보 및 각 블록들의 위치 정보를 Name node에서 관리

Replication

일부 Data node에 장애가 발생하더라도 데이터가 유실되는 것을 막기 위해 각 데이터 블록에 대해서 여러 개의 복제본(Replica) 유지(보통은 3개의 복제본을 유지)

Rack Awareness

랙 단위의 장애에 대해 최대한 가용성을 높이기 위해 데이터 블록의 복제본을 관리할 때 복제본이 한 군데에 몰려 있지 않도록 관리

복제본 개수가 3인 경우 두 개는 같은 랙의 다른 노드에 저장하고 나머지 하나는 다른 랙에 있는 노드에 저장

Data Read(Locality)

사용자가 파일을 읽을 때는 먼저 Name node에 해당 파일 위치 정보를 요청하고 그 정보를 토대로 Data node와 통신하여 파일을 읽음

Data Write

(Consistency)

먼저 Name node에 해당 파일 쓰기 요청을 하면 Name node에서는 기본적인 유효성 검사를 수행

그후 Name node는 데이터를 저장할 Data node 리스트를 사용자에게 전달하고

첫번째 Data node에 데이터를 쓰기 시작하고 다른 Data Node에 복제 데이터를 완료하면 쓰기 작업이 완료

 

나.   읽기 및 쓰기 동작

-       읽기 동작

 

-       쓰기 동작

 

 

 

신고

'Microsft Azure > 고급 분석' 카테고리의 다른 글

데이터 과학자 – Data Scientist  (1) 2013.04.24
D3  (0) 2013.04.22
HDFS (Hadoop Distributed File System)  (1) 2012.12.14
.NET SDK for Hadoop  (0) 2012.12.14
오픈소스 빅데이터 요소 기술  (0) 2012.11.28
Hadoop  (0) 2012.11.25
posted by 정홍주
2012.11.25 19:43 Microsft Azure/고급 분석

빅 데이터에 대한 내용 중 최대의 화두는 Hadoop 입니다.

I.       Hadoop의 정의

-       클라우드의 핵심 기술로써 아파치의 오픈소스 프로젝트중 하나인 대용량 데이터 처리를 위해 대규모 분산처리를 지원하는 프레임워크 (더그 커팅 창시)

II.     HadoopEcosystem의 구성도와 구성 요소

가.   Hadoop Ecosystem 의 구성도

 

 나.   Hadoop Ecosystem 의 구성 요소

구분

구성요소

내용

Core

HDFS

분산 파일 시스템, Name, Data Node

MapReduce

분산 처리, Job/Task Tracker

HBase

Column DB, Column Index

Client

Pig

Data Flow 에 대한 ETL Tools

Hive

MapReduce 컨트롤 및 Query Language

Sqoop

RDBMS와의 데이터 Import, Export

Manage

ZooKeeper

분산 응용 프로그램 coordination

Avro

데이터 직렬화 시스템

Chukwa

Data Collection System

신고

'Microsft Azure > 고급 분석' 카테고리의 다른 글

D3  (0) 2013.04.22
HDFS (Hadoop Distributed File System)  (1) 2012.12.14
.NET SDK for Hadoop  (0) 2012.12.14
오픈소스 빅데이터 요소 기술  (0) 2012.11.28
Hadoop  (0) 2012.11.25
Big Data(빅 데이터)  (0) 2012.11.25
posted by 정홍주
2012.02.14 13:27 New Feature

Apache Hadoop On Windows

 

Apache Hadoop On Windows 에 대한 위키 페이지는 아래를 참고하십시오.

 

http://social.technet.microsoft.com/wiki/contents/articles/6204.hadoop-based-services-for-windows.aspx

 

 

제한된 CTP에 대한 내용은 아래 링크를 클릭해서 등록하시면 됩니다.

https://connect.microsoft.com/SQLServer/Survey/Survey.aspx?SurveyID=13697

 

여러 링크가 있어 Hadoop에 대한 내용을 살펴볼 수 있을 것 같습니다.

Getting Started with Hadoop-based Services for Windows

On-Premise Deployment of Hadoop-based Services for Windows

Windows Azure Deployment of Hadoop-based Services for Windows

Windows Azure Deployment of Hadoop-based Services on the Elastic Map Reduce (EMR) Portal

 

Windows Azure에 대한 내용은 얼른 구성을 해서 살펴보겠습니다.

신고

'New Feature' 카테고리의 다른 글

Visual Studio 11 Beta  (0) 2012.03.01
Windows 8 Consumer Preview  (0) 2012.03.01
Apache Hadoop On Windows  (0) 2012.02.14
2012년 IT 전략기술  (0) 2012.01.26
SQL Server Data Tools CTP4  (0) 2011.11.22
Visual Studio 11 Developer Preview  (0) 2011.09.18
posted by 정홍주
2012.02.13 22:56 SQL

Hadoop

Big DataHadoop 은 상당히 언급이 많이 되고 있는 사항들입니다.

간략히 Hadoop에 대해서 정리해보았습니다.

가.   Hadoop의 정의

-       클라우드의 핵심 기술로써 아파치의 오픈소스 프로젝트중 하나인 대용량 데이터 처리를 위해 대규모 분산처리를 지원하는 프레임워크 (더그 커팅 창시)

-       인터넷 서비스를 위해 대용량 데이터를 대규모 저가 노드 기반 클러스터 시스템에 분산 관리하는 오픈 소스 기술

나.   Hadoop 등장배경

-       비정형 파일 데이터의 양이 기하급수적으로 증가 (PB, ZB)

-       대규모의 비정형 데이터 분석을 배치로 처리 요구

-       빅 데이터에 대한 가장 현실적인 대안 (아마존, 야후, 구글 등에서 활용 중)

 

다.   Hadoop의 구성요소

 구분

내용

HDFS

-Hadoop Distributed File System

-Master/Slave 구조로 HDFS에서 Master Name node, Slave Data node

-Master Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장

MapReduce

-분산 처리 시스템

-Master/Slave 구조로 각각 JobTracker TaskTracker

-HDFS에 분산 저장된 데이터를 여러 대의 TaskTracker에서 병렬로 처리함으로써 대용량의 데이터를 빠르게 처리하고자 만들어진 시스템

 

 라.   Hadoop의 활용

-       구글, 야후 등 파일, 데이터 검색, 로그 분석

-       파일, 문서 등 비정형 데이터 처리

-       유전자 염기 서열 분석

-       통신사 등의 대용량 로그 데이터 처리

-       대용량의 이미지 데이터 처리

-       교통 흐름을 분석하거나 위치 정보와 연비 상황을 분석

 

 

Hadoop 에 대한 내용은 아래 링크를 참조할 수 있습니다.

http://hadoop.apache.org/

 

신고

'SQL' 카테고리의 다른 글

SQL Server 2012의 강화된 T-SQL : 페이징 - OffSet/Fetch  (0) 2012.03.14
SQL Server 2012 RTM  (0) 2012.03.07
Hadoop  (0) 2012.02.13
Big Data  (0) 2012.01.19
SQL Server 2012 RC  (0) 2011.11.19
PASS Summit 2011 – Big Data  (0) 2011.10.15
posted by 정홍주
prev 1 next