블로그 이미지
정홍주
Azure에 대한 내용뿐만 아니라 새로운 트렌드로 빅데이터, BI, SharePoint, 앱 등의 내용을 다룹니다.

calendar

      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    

Notice

2015.08.07 08:30 Microsft Azure/고급 분석

HDInsight Hadoop – Word Count(1)

 

Hadoop 클러스터를 원격으로 연결하여 Hadoop Command 에서 아래와 같은 명령어로 Word Count MapReduce 작업을 실행하여 결과를 확인해보겠습니다.

MapReduce 작업에 대한 설명은 아래 링크를 확인할 수 있습니다.

https://azure.microsoft.com/ko-kr/documentation/articles/hdinsight-use-mapreduce/

 

MapReduce 관련 작업을 실행하기 위해 반드시 Hadoop Command 에서 실행해야 하는 것은 아닙니다. Azure PowerShell을 통해 Hadoop 클러스터가 아닌 원격에서 실행할 수 도 있습니다.

아래 구문을 하나씩 복사하여 실행할 수 있습니다. Hadoop 버전을 확인하여 진행하면 됩니다.

cd %hadoop_home%

hadoop fs -mkdir /user

hadoop fs -mkdir /user/demo

hadoop fs -copyFromLocal C:\apps\dist\examples\data\gutenberg\davinci.txt /user/demo

hadoop fs -ls /user/demo

hadoop jar C:\apps\dist\hadoop-2.4.0.2.1.15.1-0001\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.4.0.2.1.15.1-0001.jar wordcount /user/demo/*.txt /user/demo/WordCount_Output

hadoop fs -cat /user/demo/WordCount_Output/part-r-00000 | findstr "there"

 

처음은 user 아래에 demo 라는 폴더를 생성합니다.

hadoop fs -mkdir /user/demo

 

WordCount 할 수 있는 원본 파일을 복사해옵니다. 원본 파일은 examples 폴더에 들어가 있습니다.

hadoop fs -copyFromLocal C:\apps\dist\examples\data\gutenberg\davinci.txt /user/demo

 

파일을 확인하기 위해 ls 명령어로 확인해봅니다.

hadoop fs -ls /user/demo

 

이제 jar 파일을 통해 Wordcount 라는 클래스를 통해 Map 함수와 Reduce 함수를 수행하고 출력은 WordCount_Output 이라는 폴더 아래에 생성하도록 jar 명령어를 실행합니다. 마찬가지로 jar 파일은 examples 폴더에 들어가 있습니다. 출력 결과를 보면 Map 작업과 Reduce 작업을 확인할 수 있습니다.

hadoop jar C:\apps\dist\hadoop-2.4.0.2.1.15.1-0001\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.4.0.2.1.15.1-0001.jar wordcount /user/demo/*.txt /user/demo/WordCount_Output

 

결과 파일이 생성되어 있고 내부 내용을 보기 위해 cat, findstr 명령어를 실행합니다.

hadoop fs -cat /user/demo/WordCount_Output/part-r-00000 | findstr "there"

 다음 글에서는 PowerShell을 통해 Word CountHadoop 클러스터에서 실행해보겠습니다.

신고
posted by 정홍주
TAG
prev 1 2 3 4 5 6 7 8 9 10 ··· 23 next