티스토리 뷰

 

9가지 오픈소스 빅 데이터 기술

 

빅 데이터에 대한 관심은 여러 산업 분야에서 부각되는 이슈입니다. 이와 관련하여 클라우드에서도 다양한 빅 데이터 관련 기술이나 플랫폼을 제공하고 있습니다. Microsoft Azure 에서는 100% Apache HadoopHDInsight부터해서 다양한 기능을 아래 그림처럼 제공하고 있습니다.

요번글은 9가지 주목해야 할 9가지 오픈소스 빅 데이터 기술에 대한 글이 있어 정리해보았습니다. 자세한 정보는 아래 링크를 통해 확인할 수 있습니다.

http://www.ciokorea.com/slideshow/12897

 

1.     Hadoop

HDFS MapReduce로 구성되어 있으며 빅 데이터를 분할한 뒤 다수의 Node에서 병렬로 처리하며 현재 Hadoop은 빅 데이터를 구성하는 정형, 반정형, 비정형 데이터를 저장하는 가장 대중적인 기술

2.     R

통계적 컴퓨팅과 가상화를 지원하는 소프트웨어로 대량의 데이터 셋을 통계적으로 분석하기 위한 툴

3.     캐스케이딩(Cascading)

Hadoop용 오픈소스 소프트웨어 추상화 계층으로, Hadoop Cluster에서 Data processing workflow를 제작, 실행할 수 있도록 지원하며 광고 타겟팅(ad targeting)이나 로그 파일 분석, 생물정보학, 기기 학습, 예측적 애널리틱스, 웹 컨텐츠 마이닝, ETL 애플리케이션 등에 사용

4.     스크라이브(Scribe)

페이스북이 개발한 서버로, 여러 서버들에서 실시간으로 스트림되는 로그 데이터를 종합하는 역할

5.     엘라스틱서치

RESTful 오픈소스 검색 서버로 특별한 설정 없이도 거의 실시간의 검색과 멀티테넌시(multitenancy)를 지원하는 스케일러블 솔루션(scalable solution)

6.     Apache HBase

구글의 빅테이블(BigTable)을 본떠 자바로 작성된 오픈소스 Column 기반 NoSQL, HDFS에 기반한 구동을 목적으로 설계

7.     아파치 카산드라

페이스북이 개발한 오픈소스 분산형 데이터베이스 관리 시스템으로 NoSQL

8.     Mongo DB

Dynamic schema(동적 스키마)를 통해 정형 데이터를 BSON(Binary JSON)이라고 하는 JSON 형태의 문서로 저장하는 NoSQL

9.     Apach CouchDB

JSON을 이용해 데이터를 저장하고 있으며 자바스크립트를 쿼리 언어(query language), MapReduce HTTP API로 사용하는 오픈소스 NoSQL

 

데이터 과학자로서 위 중에서 Hadoop(Sqoop/Flume, Hive) R 은 가장 기본이며 NoSQL 중의 하나를 장착하는 것은 필수라고 생각합니다.

 

댓글