블로그 이미지
정홍주
Azure에 대한 내용뿐만 아니라 새로운 트렌드로 빅데이터, BI, SharePoint, 앱 등의 내용을 다룹니다.

calendar

        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

Notice

'Microsft Azure/고급 분석'에 해당되는 글 23

  1. 2014.03.01 HDInsight 3.0 미리보기
  2. 2014.01.23 Windows with HDP 2.0
  3. 2014.01.17 Windows Azure의 HDInsight 시작
  4. 2013.12.09 MapReduce 2.0 (MRv2), YARN
  5. 2013.12.02 Hadoop Distribution
  6. 2013.05.06 빅 데이터 활용 기술 및 솔루션
  7. 2013.04.24 데이터 과학자 – Data Scientist(1)
  8. 2013.04.22 D3
  9. 2012.12.14 HDFS (Hadoop Distributed File System)(1)
  10. 2012.12.14 .NET SDK for Hadoop
2014.03.01 08:00 Microsft Azure/고급 분석

 

HDInsight 3.0 미리보기

 

Windows Azure HDInsight에서 Hadoop 2.2 클러스터를 생성해보도록 하겠습니다. Windows Azure 2월 업데이트 내용에서 HDInsight 3.0 미리보기 기능을 제공한다는 것을 알 수 있는데 간략히 살펴보도록 하겠습니다. HDInsight 3.0 미리보기의 Hadoop 버전은 아래 링크를 참고하십시오.

http://www.windowsazure.com/en-us/documentation/articles/hdinsight-component-versioning/?fb=ko-kr

 

일단 먼저 저장소가 있어야 하므로 저장소를 생성해야 하는데 미국 동부, 미국 서부, 유럽 북부, 유럽 서부, 동남 아시아 지역이 가능합니다. 미리 저장소 계정을 생성해둡니다. 사용자 지정 만들기에서 생성 할 수도 있습니다.

 

1.     Windows Azure 포털의 HDInsight 메뉴에서 새로 만들기 사용자 지정 만들기를 통해 클러스터 이름, HDInsight 버전과 지역을 설정합니다.

 

 

2.     클러스터 관리자 계정과 암호를 입력합니다. (암호: 대문자, 소문자, 숫자와 특수문자)

 

 

3.     저장소 계정을 선택하거나 생성합니다.

 

 

4.     실행중으로 생성이 다 되었으면 대시보드로 이동하여 원격 사용을 활성화 하여 연결할 수 있습니다.

 

 

5.     원격으로 연결한 상태입니다.

 

 

이제 메모장 파일로 Word Count 예제를 돌려보거나 또는 MapReduce 작업을 별도로 만들어볼 수 도 있습니다. Hive, Pig에 대한 내용도 살펴볼 수 있습니다. 다음 글에서 Word Count 예제를 구동해보겠습니다.

 

'Microsft Azure > 고급 분석' 카테고리의 다른 글

Azure Machine Learning - 데모  (0) 2015.05.02
HDInsight에서 HBase 지원  (0) 2014.06.16
HDInsight 3.0 미리보기  (0) 2014.03.01
Windows with HDP 2.0  (0) 2014.01.23
Windows Azure의 HDInsight 시작  (0) 2014.01.17
MapReduce 2.0 (MRv2), YARN  (0) 2013.12.09
posted by 정홍주
2014.01.23 08:30 Microsft Azure/고급 분석

Windows with HDP 2.0

 

Hortonworks에서 HDP 2.0 for Windows를 발표했습니다. 자세한 정보를 아래에서 확인해보시기 바랍니다.

http://hortonworks.com/blog/install-hadoop-windows-hortonworks-data-platform-2-0/?mkt_tok=3RkMMJWWfF9wsRoivqTAZKXonjHpfsX56O8lX6WylMI%2F0ER3fOvrPUfGjI4CSsdhI%2BSLDwEYGJlv6SgFT7TMMbFh1rgNUxc%3D

 

HDP for Windows Windows 서버 위에 Hadoop을 탑재한 플랫폼으로 Linux에서가 아닌 Windows 위에서 구동을 할 수 있는 내용이며 HDP 2.0 for WindowsYARN 기능이 추가된 HDP 2.0이 탑재된 버전입니다.

 

Windows 2012 R2위에 1 노드 클러스터가 미리 구성된 패키지를 통해 Hadoop Eco System을 하나씩 설치하지 않고도 Hadoop에 대한 내용을 접근할 수 있습니다.

 

위 내용에서 다운로드 받아서 다음 글에서 다루어 보도록 하겠습니다.

 

 

'Microsft Azure > 고급 분석' 카테고리의 다른 글

HDInsight에서 HBase 지원  (0) 2014.06.16
HDInsight 3.0 미리보기  (0) 2014.03.01
Windows with HDP 2.0  (0) 2014.01.23
Windows Azure의 HDInsight 시작  (0) 2014.01.17
MapReduce 2.0 (MRv2), YARN  (0) 2013.12.09
Hadoop Distribution  (0) 2013.12.02
posted by 정홍주
2014.01.17 08:30 Microsft Azure/고급 분석

 

Windows AzureHDInsight 시작

 

HDInsight 100% Apache Hadoop 솔루션을 Windows Azure에 구현한 Microsoft Hadoop 기반 서비스이며 HortonWorksHDP로 구성되어 있습니다. 또한 Hadoop on Windows도 제공하고 있습니다.

l  신속한 배포

Windows AzureHDInsight를 사용하면 관리나 배포의 용이성을 간단하게 제공받을 수 있어 신속한 배포가 가능합니다.

l  익숙한 도구를 통한 통찰력

Excel, PowerPivot을 통해 빅데이터의 쉬운 분석이 가능해 익숙한 도구를 통한  Insight가 가능합니다.

l  다양한 프로그래밍

여러 언어를 통해 프로그래밍이 가능하도록 제공하고 있으며 LINQ to Hive를 제공하고 있습니다.

HDInsight 의 자세한 정보는 아래 링크를 확인해보시기 바랍니다.

http://www.windowsazure.com/ko-kr/services/hdinsight/

http://www.windowsazure.com/en-us/documentation/services/hdinsight/?fb=ko-kr

http://www.windowsazure.com/ko-kr/pricing/details/hdinsight/

 

Windows Azure 포털로 로그온하여 HDInsight 클러스터를 한 번 생성해보도록 하겠습니다.

포털 메뉴에서 HDInsight에서 클러스터 만들기를 클릭하여 빠른 생성으로 생성해보겠습니다.

클러스터를 생성하기 전에 저장소 계정이 필요합니다. 저장소는 클러스터의 분산 파일 시스템으로 지정되게 되어 생성하기 전에 미리 저장소 계정을 생성해야 합니다.
*
미국 서부, 동부외 추가로 동남아시아도 현재 시점에서는 제공되고 있습니다.

1.     저장소 계정이 있다면 빠른 실행을 통해서 생성해보겠습니다. 아래 그림처럼 새로 만들기를 통해 클러스터 이름, 크기, 암호, 저장소 계정을 선택하면 됩니다.

    생성된 결과는 아래와 같습니다. 클러스터 이름을 클릭하여 대시 보드를 살펴보고 구성 메뉴로 이동하여 클러스터 연결에 대한 사용자 계정과 암호, 만료 날짜를 입력하여 원격 사용을 하도록 합니다.   

 

2.     사용자 지정을 통해서 클러스터를 생성해보겠습니다. 새로 만들기의 사용자 지정 만들기를 클릭하여 클러스터 이름과 버전, 지역을 선택할 수 있습니다.

* 클러스터의 버전은 HDP의 버전과 매치되며 버전 2.1HDP1.3 버전이 됩니다.
 
http://www.windowsazure.com/en-us/manage/services/hdinsight/versioning-in-hdinsight/?fb=ko-kr

다음 버튼을 클릭하면 빠른 생성과 달리 사용자 계정과 암호를 입력하게 됩니다. 또한 Metastore에 대한 내용을 체크할 수 도 있습니다.

다음 버튼을 클릭하면 저장소 계정을 선택하고 추가할 수 있습니다.

 

 

생성된 클러스터를 원격으로 연결해보도록 하겠습니다. Windows Server 2008 R2 이며 바탕화면에 Hadoop Command LineName Node, Job Status 바로 가기가 보입니다.

 

'Microsft Azure > 고급 분석' 카테고리의 다른 글

HDInsight 3.0 미리보기  (0) 2014.03.01
Windows with HDP 2.0  (0) 2014.01.23
Windows Azure의 HDInsight 시작  (0) 2014.01.17
MapReduce 2.0 (MRv2), YARN  (0) 2013.12.09
Hadoop Distribution  (0) 2013.12.02
빅 데이터 활용 기술 및 솔루션  (0) 2013.05.06
posted by 정홍주
2013.12.09 08:00 Microsft Azure/고급 분석

 

MapReduce 2.0 (MRv2), YARN

 

CDH, HDP 등에서도 YARN을 지원하고 있다는 것을 보실수 있는데 MapReduce의 경우 4000 노드까지 지원을 하게 되며 Name Node의 경우 가용성 적인 측면 등에서 제한적인 측면이 있는데 Hadoop 0.23 에서 오버홀하여 YARN 또는 MapReduce 2.0 (MRv2)를 지원합니다.

 

MapReduce에서 JobTracker의 주요 기능을 여러 데몬으로 분리했는데, YARN의 전체적인 내용은 아래 그림을 참고하실 수 있습니다.

 

출처: http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html

 

구분

설명

구성

Resource Manager

마스터 서버 역할, 자원들의 상태를 관리, 리소스 할당 조율

Scheduler, ApplicationsMaster 로 구성

글로벌 , 1대 서버

 

Node Manager

컨테이너를 시작, 리소스 사용을 모니터링, 리소스 관리자에게 보고

노드 슬레이브 당, N대 서버

Application Master

스케쥴러와 자원 협상, 상태 추적과 모니터링

어플리케이션당

Container

작업

Node Manager에서 구동되는 어플리케이션 당

 

YARN의 작업 진행 절차는 아래 링크를 참조할 수 있습니다.

http://hortonworks.com/blog/apache-hadoop-yarn-concepts-and-applications/

 

YARN에 관련된 링크는 아래를 참고할 수 있습니다.

Hadoop YARN

- http://hortonworks.com/hadoop/yarn/

Apache Hadoop NextGen MapReduce (YARN)

- http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html

Introducing Apache Hadoop YARN

- http://hortonworks.com/blog/introducing-apache-hadoop-yarn/

 

 

'Microsft Azure > 고급 분석' 카테고리의 다른 글

Windows with HDP 2.0  (0) 2014.01.23
Windows Azure의 HDInsight 시작  (0) 2014.01.17
MapReduce 2.0 (MRv2), YARN  (0) 2013.12.09
Hadoop Distribution  (0) 2013.12.02
빅 데이터 활용 기술 및 솔루션  (0) 2013.05.06
데이터 과학자 – Data Scientist  (1) 2013.04.24
posted by 정홍주
TAG , 정홍주
2013.12.02 08:00 Microsft Azure/고급 분석

 

Hadoop Distribution

 

Hadoop은 오픈 소스인데 Hadoop Ecosystem의 여러 오픈 소스 프로젝트를 묶어 배포하고 교육이나 컨설팅, 또는 추가 솔루션을 탑재하는 곳이 크게 외국 업체로 3 군데가 있습니다. 국내에도 업체들이 있습니다.

간략히 한번 살펴보겠습니다.

l  Coudera

http://www.cloudera.com

CDH(Coudera’s Distribution including Apache Hadoop)의 다이어그램은 아래 그림을 참고하실 수 있습니다.

출저: http://www.cloudera.com/content/cloudera/en/products-and-services/cdh.html

구체적인 오픈소스 프로젝트가 잘 안 보이는데 아래 링크에서 확인이 가능합니다.

http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/projects-and-versions.html

 

l  Hortonworks

http://hortonworks.com

HDP(Hortonworks Data Platform) 의 다이어그램은 아래 그림을 참고하실 수 있습니다.

 

출처: http://hortonworks.com/products/hdp/

위 링크에서 구체적인 프로젝트를 살펴 보실수 있습니다. 현재 HDP 버전은 2.0을 제공하고 있습니다. HDPWindows를 제공하고 있으므로 플랫폼을 구성할 때 Windows 또는 Linux를 고려할 수 있습니다. Microsoft에서는 HDInsight 라는 이름으로 제공되고 있습니다. Windows Azure 에서는 HDInsight 서비스로 HDP가 구성되어 있어 클라우드의 서비스로 하둡을 구성할 수 있습니다.

 

l  MapR

http://www.mapr.com/

MapR의 다이어그램은 아래 그림을 참고할 수 있습니다.

출처: http://www.mapr.com/Download-document/7-MapR-White-Paper

 Windows Azure 에서는 HDInsight 서비스를 구체적으로 다루어보기 위해 도입부로 본 글을 작성합니다.

 

 

'Microsft Azure > 고급 분석' 카테고리의 다른 글

Windows Azure의 HDInsight 시작  (0) 2014.01.17
MapReduce 2.0 (MRv2), YARN  (0) 2013.12.09
Hadoop Distribution  (0) 2013.12.02
빅 데이터 활용 기술 및 솔루션  (0) 2013.05.06
데이터 과학자 – Data Scientist  (1) 2013.04.24
D3  (0) 2013.04.22
posted by 정홍주
TAG HDP, 정홍주
2013.05.06 09:38 Microsft Azure/고급 분석

 

빅 데이터 활용 기술 및 솔루션

 

빅 데이터 활용 기술 및 솔루션에 대해서 정리해보았습니다.

구분

기술 및 솔루션

인프라

-       Hadoop 플랫폼

-       In-Memory DBMS

-       In-Memory 컴퓨팅 (SAP HANA )

-       Appliance

-       클라우드 컴퓨팅, Grid 컴퓨팅

수집

-       Crawling, ETL

Sqoop(RDB Import/Export)

Chukwa(로그 데이터 수집)

저장
관리

분산 DBMS

-       RDBMS (Shared Nothing, Everything)

RAC +ASM

-       NoSQL

Column 기반(Hbase,Cassandra,HyperTable,SimpleDB)

Key,Value 기반(Redis,Riak,Voldemort,WA Storage)

Document 기반(Mongo DB,DynamoDB)

Graph (Neo4J, AllegroGraph)

-       NewSQL

RDBMS(SQL편의성)+NoSQL(확장성)
MongoDB,SQL Azure

 

분산

파일

-       GFS, HDFS, GloryFS, owFS

처리

기술

-       대용량 처리

MapReduce, Twister, Haloop, MapReduce Online

-       실시간

CEP, EDA, S4, STORM, Kafka

분석

-       Data Mining, Text Mining, Opinion Mining, Cluster Analytics, Content Mining, Real-time Mining, Gremlin Giraph

시각화

-       R, D3, Infographics

DrillDremel

 

'Microsft Azure > 고급 분석' 카테고리의 다른 글

MapReduce 2.0 (MRv2), YARN  (0) 2013.12.09
Hadoop Distribution  (0) 2013.12.02
빅 데이터 활용 기술 및 솔루션  (0) 2013.05.06
데이터 과학자 – Data Scientist  (1) 2013.04.24
D3  (0) 2013.04.22
HDFS (Hadoop Distributed File System)  (1) 2012.12.14
posted by 정홍주
2013.04.24 08:30 Microsft Azure/고급 분석

 

데이터 과학자 – Data Scientist

 

며칠 전 전자 신문에 데이터 과학자에 대한 글이 1면에 나와서 정리해보았습니다.

http://www.etnews.com/news/international/2750266_1496.html

 

엔지니어 입장에서 접근하다보니 Hive SELECT t4, COUNT(*) FROM Table WHERE tx=’[ERROR]’ 로 결과를 표시하거나 EXCEL에서 연결해서 결과를 나오게 할 수는 있는데 나온 결과가 의미 있는거냐? 도움이 되는 거냐? 가치가 있는거냐? 나왔는데 그래서? 그 다음은?

 

 

1.     데이터 과학자 (Data Scientist)

가.   정의

-       고객의 행동이나 시장 주기 같은 구조화 되지 않은 대용량 데이터를 분석하여 새로운 가치를 창출하는 사람

나.   부각 이유

-       빅데이터 이슈, 비정형 데이터 분석, 분석 결과 신속성 및 신뢰성 요구

2.     빅데이터 활용 3대 요소 및 데이터 과학자의 필수 역량

가.   빅데이터 활용 3대 요소

    

나.   데이터 과학자의 필수 역량

역할

내용

수학적 지식

수학 및 알고리즘

통계학, 도구 이해

R,SAS, SPSS

프로그래밍 능력

C++, Java, .NET

RDBMS 이해

SQL, Index, 정규화

분산컴퓨팅기술

Hadoop, Hive, Sqoop, MapReduce

커뮤니케이션

의사소통 능력

비즈니스 통찰력

가치 창출, 가치 증대

 

 

'Microsft Azure > 고급 분석' 카테고리의 다른 글

Hadoop Distribution  (0) 2013.12.02
빅 데이터 활용 기술 및 솔루션  (0) 2013.05.06
데이터 과학자 – Data Scientist  (1) 2013.04.24
D3  (0) 2013.04.22
HDFS (Hadoop Distributed File System)  (1) 2012.12.14
.NET SDK for Hadoop  (0) 2012.12.14
posted by 정홍주
2013.04.22 08:31 Microsft Azure/고급 분석

D3

 

D3

 

이전 글에서 잠시 언급한 D3 에 대한 내용을 한번 적용해보았습니다.

저번 글에 2 번이나 언급되어 있어서 수정했습니다.

오픈소스 빅데이터 요소 기술

 

D3는 시각화 언어로 javascript 라이브러리이며 HTML 5CSS 3, SVG와 동작되며 정말 다양하고 새로운 결과를 제공해줍니다. Data-Driven을 제공해주어 사용자 경험을 더 강화해주고 있습니다 

 

아래 링크를 통해 보다 더 자세한 정보를 확인 가능합니다.

http://d3js.org/

https://github.com/mbostock/d3/wiki/Gallery

https://github.com/mbostock/d3/wiki/Tutorials

  

HTML 5SVG를 이용하여 D3로 바 차트를 구현해보겠습니다. jQuery를 사용해본 사람이라면 그다지 문제는 없을 것 같습니다.

1.     프로젝트를 생성하고 D3 스크립트를 링크해주고 나면 HTML로 작업하거나 HTML 5SVG에 작업이 가능합니다.

<body>

    <script src="http://d3js.org/d3.v3.min.js" charset="utf-8"></script>

 

2.     추가한 내용에 아래 스크립트를 추가합니다.

<script>

        var data = [4, 8, 15, 16, 23, 42];

        var chart = d3.select("body").append("svg")

        .attr("class", "chart")

        .attr("width", 420)

        .attr("height", 20 * data.length);

 

        var x = d3.scale.linear()

         .domain([0, d3.max(data)])

         .range([0, 420]);

 

        chart.selectAll("rect")

        .data(data)

        .enter().append("rect")

        .attr("y", function (d, i) { return i * 20; })

        .attr("width", x)

        .attr("height", 20);

 

3.     실행하여 결과를 확인합니다.

4.     보다 더 복잡한 결과도 구성할 수 있습니다.

 

도움말과 샘플 예제를 통해 정말 다양한 시각화가 가능해질 수 있습니다. HTML 5SVG로도 작업이 가능하여 데이터 시각화에 사용하시면 도움이 될 것으로 보입니다.

'Microsft Azure > 고급 분석' 카테고리의 다른 글

빅 데이터 활용 기술 및 솔루션  (0) 2013.05.06
데이터 과학자 – Data Scientist  (1) 2013.04.24
D3  (0) 2013.04.22
HDFS (Hadoop Distributed File System)  (1) 2012.12.14
.NET SDK for Hadoop  (0) 2012.12.14
오픈소스 빅데이터 요소 기술  (0) 2012.11.28
posted by 정홍주
2012.12.14 11:25 Microsft Azure/고급 분석

 

HDFS (Hadoop Distributed File System)

 

I.       HDFS(Hadoop Distributed File System) 개요

-       Master/Slave 구조로 Master Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장하는 하둡 분산 파일 시스템

 

II.      HDFS의 특징 및 읽기 및 쓰기 동작

가.   HDFS의 특징

구분

특징

Data Block

파일을 블록단위로 쪼개서 여러 Data node에 나눠서 저장하고 각 파일의 기본 정보 및 각 블록들의 위치 정보를 Name node에서 관리

Replication

일부 Data node에 장애가 발생하더라도 데이터가 유실되는 것을 막기 위해 각 데이터 블록에 대해서 여러 개의 복제본(Replica) 유지(보통은 3개의 복제본을 유지)

Rack Awareness

랙 단위의 장애에 대해 최대한 가용성을 높이기 위해 데이터 블록의 복제본을 관리할 때 복제본이 한 군데에 몰려 있지 않도록 관리

복제본 개수가 3인 경우 두 개는 같은 랙의 다른 노드에 저장하고 나머지 하나는 다른 랙에 있는 노드에 저장

Data Read(Locality)

사용자가 파일을 읽을 때는 먼저 Name node에 해당 파일 위치 정보를 요청하고 그 정보를 토대로 Data node와 통신하여 파일을 읽음

Data Write

(Consistency)

먼저 Name node에 해당 파일 쓰기 요청을 하면 Name node에서는 기본적인 유효성 검사를 수행

그후 Name node는 데이터를 저장할 Data node 리스트를 사용자에게 전달하고

첫번째 Data node에 데이터를 쓰기 시작하고 다른 Data Node에 복제 데이터를 완료하면 쓰기 작업이 완료

 

나.   읽기 및 쓰기 동작

-       읽기 동작

 

-       쓰기 동작

 

 

 

'Microsft Azure > 고급 분석' 카테고리의 다른 글

데이터 과학자 – Data Scientist  (1) 2013.04.24
D3  (0) 2013.04.22
HDFS (Hadoop Distributed File System)  (1) 2012.12.14
.NET SDK for Hadoop  (0) 2012.12.14
오픈소스 빅데이터 요소 기술  (0) 2012.11.28
Hadoop  (0) 2012.11.25
posted by 정홍주
2012.12.14 09:17 Microsft Azure/고급 분석

 

.NET SDK for Hadoop

 

Microsoft .NET SDK for Hadoop 에 대한 내용이 올라왔습니다. 아래 링크를 참조하십시오.

http://hadoopsdk.codeplex.com/

SDK는 아래 내용에 대한 부분을 포함하고 있습니다.

l  Map/Reduce

l  LINQ to Hive

l  WebHDFS Client

 

위의 내용을 NuGet 패키지로 제공하고 있습니다.

 

이중 LINQ to HIVE 에 대한 내용을 보시면 LINQ를 통해 Hadoop 데이터를 손쉽게 액세스 하는 것을 확인 할 수 있습니다.

var db = new MyHiveDatabase("localhost", 10000);

 

var q = from x in

(from a in db.Actors

select new { a.ActorId, foo = a.AwardsCount })

group x by x.ActorId into g

select new { ActorId = g.Key, bar = g.Average(z => z.foo) };

 

Hadoop Server에 해당하는 HDInsight ServerHadoop on Azure HDInsight Service에 대한 내용은 아래 링크를 참조할 수 있습니다.

http://www.microsoft.com/sqlserver/en/us/solutions-technologies/business-intelligence/big-data.aspx

https://www.hadooponazure.com/

 

 

 

'Microsft Azure > 고급 분석' 카테고리의 다른 글

D3  (0) 2013.04.22
HDFS (Hadoop Distributed File System)  (1) 2012.12.14
.NET SDK for Hadoop  (0) 2012.12.14
오픈소스 빅데이터 요소 기술  (0) 2012.11.28
Hadoop  (0) 2012.11.25
Big Data(빅 데이터)  (0) 2012.11.25
posted by 정홍주
prev 1 2 3 next