블로그 이미지
정홍주
Azure에 대한 내용뿐만 아니라 새로운 트렌드로 빅데이터, BI, SharePoint, 앱 등의 내용을 다룹니다.

calendar

        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

Notice

2012.02.13 22:56 SQL

Hadoop

Big DataHadoop 은 상당히 언급이 많이 되고 있는 사항들입니다.

간략히 Hadoop에 대해서 정리해보았습니다.

가.   Hadoop의 정의

-       클라우드의 핵심 기술로써 아파치의 오픈소스 프로젝트중 하나인 대용량 데이터 처리를 위해 대규모 분산처리를 지원하는 프레임워크 (더그 커팅 창시)

-       인터넷 서비스를 위해 대용량 데이터를 대규모 저가 노드 기반 클러스터 시스템에 분산 관리하는 오픈 소스 기술

나.   Hadoop 등장배경

-       비정형 파일 데이터의 양이 기하급수적으로 증가 (PB, ZB)

-       대규모의 비정형 데이터 분석을 배치로 처리 요구

-       빅 데이터에 대한 가장 현실적인 대안 (아마존, 야후, 구글 등에서 활용 중)

 

다.   Hadoop의 구성요소

 구분

내용

HDFS

-Hadoop Distributed File System

-Master/Slave 구조로 HDFS에서 Master Name node, Slave Data node

-Master Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장

MapReduce

-분산 처리 시스템

-Master/Slave 구조로 각각 JobTracker TaskTracker

-HDFS에 분산 저장된 데이터를 여러 대의 TaskTracker에서 병렬로 처리함으로써 대용량의 데이터를 빠르게 처리하고자 만들어진 시스템

 

 라.   Hadoop의 활용

-       구글, 야후 등 파일, 데이터 검색, 로그 분석

-       파일, 문서 등 비정형 데이터 처리

-       유전자 염기 서열 분석

-       통신사 등의 대용량 로그 데이터 처리

-       대용량의 이미지 데이터 처리

-       교통 흐름을 분석하거나 위치 정보와 연비 상황을 분석

 

 

Hadoop 에 대한 내용은 아래 링크를 참조할 수 있습니다.

http://hadoop.apache.org/

 

'SQL' 카테고리의 다른 글

SQL Server 2012의 강화된 T-SQL : 페이징 - OffSet/Fetch  (0) 2012.03.14
SQL Server 2012 RTM  (0) 2012.03.07
Hadoop  (0) 2012.02.13
Big Data  (0) 2012.01.19
SQL Server 2012 RC  (0) 2011.11.19
PASS Summit 2011 – Big Data  (0) 2011.10.15
posted by 정홍주
2012.01.19 17:35 SQL

요즘 화두가 되고 있는 Big Data에 대한 내용을 간략히 정리해보겠습니다.

 

I.       Big Data 개념

가.   빅 데이터(Big Data)의 정의

-       기존의 관리 및 분석 체계로는 감당하기 어려운 정도의 막대한 양의 데이터(Petta, Zetta)

-       수천 TB 에 달하는 거대한 데이터 집합뿐만 아니라 관련도구, 플랫폼, 분석기법까지 포괄

나.   빅 데이터 분석의 중요성

-       멀티미디어, SNS, RFID, 센서네트워크, 소셜데이터, 전자상거래, 천문/대기, 의료정보 관련 등 폭발적인 데이터 생산

-       급격히 늘어나는 데이터 속에서 필요한 정보를 식별 의사결정에 활용(기존 분석 체계로는 불가

 

II.       빅 데이터의 3가지 요소와 분석의 어려움

가.    빅데이터의 3가지 요소

구분

설명

VOLUME

-대용량의 많은 데이터를 의미

-Terabytes (PB, ZB), Tables, Files, Transactions

VELOCITY

-데이터의 흐름, 속도

-Near Time, Real Time, Streams

VARIETY

-데이터의 형태

-Structured, UnStructured, Semistructured

 

나.   빅 데이터 분석과 기존 경영 정보 분석이 차이점

-       기존의 경영정보 분석은 일정한 양식에 따라 정제된 데이터를 취급

-      웹사이트의 방문기록, 소셜 미디어의 소통 정보를 망라한 빅 데이터는 양식이 제각기 다르고 구조화된 수준이 낮음

-      빅데이터는 구조화 수준이 낮고 매우 방대한 데이터를 다루므로 진보된 분산 처리 기술과 통계적 기법, 인공지능 기법 등이 필요

 

그래서 Big Data에 대한 분석 기술(Text Mining )과 분산 처리 기법(Hadoop ) 이 발전하게 됩니다.

 

 

'SQL' 카테고리의 다른 글

SQL Server 2012 RTM  (0) 2012.03.07
Hadoop  (0) 2012.02.13
Big Data  (0) 2012.01.19
SQL Server 2012 RC  (0) 2011.11.19
PASS Summit 2011 – Big Data  (0) 2011.10.15
PASS Summit 2011 – Keynote(2)  (0) 2011.10.14
posted by 정홍주
2011.11.19 12:53 SQL

새로 RC 버전이 출시되었습니다
아래 링크를 참조 하시기 바랍니다


http://www.microsoft.com/sqlserver/en/us/learning-center/resources.aspx

'SQL' 카테고리의 다른 글

Hadoop  (0) 2012.02.13
Big Data  (0) 2012.01.19
SQL Server 2012 RC  (0) 2011.11.19
PASS Summit 2011 – Big Data  (0) 2011.10.15
PASS Summit 2011 – Keynote(2)  (0) 2011.10.14
PASS Summit 2011  (0) 2011.10.13
posted by 정홍주
2011.10.15 05:40 SQL

PASS Summit 2011 – Big Data

 

오늘은 Big Data 주제로 David DeWitt 교수의 키노트가 있었습니다, 아래 링크를 참조하십시오.

http://www.sqlpass.org/summit/2011/Live/LiveStreaming/LiveStreamingFriday.aspx

 

 

Big Data

Not Only SQL



HaDoop, MapReduce, Hive, Pig 등 개안을 하는 기분이었습니다.
또한 앞으로의 방향이랄까..,

'SQL' 카테고리의 다른 글

Hadoop  (0) 2012.02.13
Big Data  (0) 2012.01.19
SQL Server 2012 RC  (0) 2011.11.19
PASS Summit 2011 – Big Data  (0) 2011.10.15
PASS Summit 2011 – Keynote(2)  (0) 2011.10.14
PASS Summit 2011  (0) 2011.10.13
posted by 정홍주
2011.10.14 05:08 SQL

PASS Summit 2011 – Keynote(2)

키노트 동영상에 대한 내용은 다음을 참고하실 수 있습니다.
http://www.sqlpass.org/summit/2011/Live/LiveStreaming.aspx 

아래 사진처럼 12 가지에 대한 내용으로 SQL Server 2012에 대한 내용을 주로 다루었습니다. 

l  AlwaysOn

l  ColumnStore Index

n  SSRS의 보고서의 Response Time 45초 였는데 ColumnStore Index를 적용하니 0.31초로 성능 차이가 많이 납니다.

l  Appliance- Dell, HP

l  SQL Azure & SQL Azure Federation

n  사례로 삼성 스마트 TV가 나오더군요.

 

l  추가로 SQL Azure 에 대한 새로운 내용이 발표되었습니다.



'SQL' 카테고리의 다른 글

Hadoop  (0) 2012.02.13
Big Data  (0) 2012.01.19
SQL Server 2012 RC  (0) 2011.11.19
PASS Summit 2011 – Big Data  (0) 2011.10.15
PASS Summit 2011 – Keynote(2)  (0) 2011.10.14
PASS Summit 2011  (0) 2011.10.13
posted by 정홍주
2011.10.13 05:20 SQL

PASS Summit 2011

PASS Summit 2011이 열리고 있습니다 


키노트는 웹을 통해 보실 수 있으니 첫째 날의 키노트는 아래를 참고해보십시오.

http://www.sqlpass.org/summit/2011/Live/LiveStreaming/LiveStreamingWednesday.aspx

 데모만 보셔도 아주 좋을 것 같습니다.


Deep Dive 2 책의 사인회가 열리고 있습니다.  (김정선 아저씨는 어디???)

'SQL' 카테고리의 다른 글

Hadoop  (0) 2012.02.13
Big Data  (0) 2012.01.19
SQL Server 2012 RC  (0) 2011.11.19
PASS Summit 2011 – Big Data  (0) 2011.10.15
PASS Summit 2011 – Keynote(2)  (0) 2011.10.14
PASS Summit 2011  (0) 2011.10.13
posted by 정홍주
2011.06.27 08:52 SQL/T-SQL

커뮤니티에 약간 자주 String Concat, String Group By가 올라와서..,

 

USE AdventureWorks

GO

 

SELECT c.Name ID,  s.Name 

INTO #t

 FROM Production.ProductCategory c

JOIN Production.ProductSubcategory s ON c.ProductCategoryID=s.ProductCategoryID

 

 

SELECT * FROM #t

 

Bikes Mountain Bikes

Bikes Road Bikes

Bikes Touring Bikes

Components Handlebars

Components Bottom Brackets

Components Brakes

Components Chains

Components Cranksets

Components Derailleurs

Components Forks

Components Headsets

Components Mountain Frames

…..,

 

 

SELECT ID, STUFF(

     (SELECT  ',' + a.Name  AS [text()]

     from #t  a

     where a.ID = b.ID

     Order by a.Name

     for xml PATH('')),1,1,''   ) AS r

 from #t b

group by ID

ORDER BY ID


posted by 정홍주
2011.02.18 22:14 SQL/T-SQL

에러 핸들링(Error Handlig )

SQL Server의 Try Catch 에 대한 내용

 BEGIN TRY

 

--실행문

 

END TRY

 

BEGIN CATCH

 

SELECT @Err_Number=ISNULL(error_number(),0)

,@Err_Message=ISNULL(error_message(),'NULL Message')

,@Err_Severity=ISNULL(error_severity(),0)

,@Err_State=ISNULL(error_state(),1)

,@Err_Line=ISNULL(error_line(),'NULL Message')

,@Err_Procedure=ISNULL(error_message(),'')

,@UserName=SUSER_NAME()

,@HostName=HOST_NAME()

,@Time_Stamo=GETDATE()

 

-- ERROR Logging

 

END CATCH

 

AdventureWorks 데이터베이스의 에러 핸들링 구조

1. dbo.ErrorLog 테이블 생성
2. dbo.uspLogError 로그 저장 프로시저 생성(dbo.ErrorLog  테이블에 위에 관련된 값 이용 INSERT)
3. 각 저장 프로시저의 CATCH 문에서 dbo.uspLogError  사용

BEGIN CATCH

        -- Rollback any active or uncommittable transactions before

        -- inserting information in the ErrorLog

        IF @@TRANCOUNT > 0

        BEGIN

            ROLLBACK TRANSACTION;

        END

 

        EXECUTE [dbo].[uspLogError];

END CATCH;

 

posted by 정홍주
2011.02.14 08:30 SQL/T-SQL


커뮤니티의 게시판에 Excel에서는 날짜를 정수로 변경하면 SQL Server에서 변환한 값과 2일의 차이가 난다는 내용이 올라와서 이리저리 찾아서 정리합니다.

예전 Lotus 1-2-3에서는 시작일을 1899-12-31로 잡고 있습니다. 호환성 때문에 Excel 0 일을 1899-12-31로 계산하고 있습니다. 1900-01-01Excel에서 정수로 변경하면 1 이 나오는 것을 알 수 있습니다.

또한 1900-02-29 Excel에서는 존재합니다.

하지만 날짜를 비교하거나 할 경우 SQL Server에서는 시작일을 1900-01-01 로 처리하고 있습니다. 이른바 0 일이 되는 거죠. 1900-02-29T-SQL에서 변환하면 에러가 발생합니다.

SELECT CONVERT(DATETIME,'1900-02-29')

 

메시지242, 수준16, 상태3, 1

varchar 데이터형식을datetime 데이터형식으로변환하는중값범위를벗어났습니다.

하여간 여러 가지 내용으로 인해 2일의 차이가 발생하게 됩니다.

SELECT
DATEDIFF(dd, '1900-01-01 12:00:00 AM','2011-02-14 12:00:00 AM')

-- 결과 40586

-- Excel 결과 40588



흠...,

posted by 정홍주
2011.02.11 08:30 SQL/T-SQL


데이터베이스에 대한 연결의 spid를 한번에 KILL 할 수 있도록 구성해주는 쿼리문


DECLARE @kill VARCHAR(MAX)

SELECT @kill=COALESCE(@kill,'') + 'KILL '

 + CAST(spid AS VARCHAR(10)) +'; '

FROM sys.sysprocesses

WHERE DBID=DB_ID('AdventureWorks')

 

 

PRINT @kill

 

--결과 KILL 53; KILL 71; KILL 86;

 

 

posted by 정홍주
prev 1 2 3 next