티스토리 뷰

HDInsight Hadoop – Word Count(1)

 

Hadoop 클러스터를 원격으로 연결하여 Hadoop Command 에서 아래와 같은 명령어로 Word Count MapReduce 작업을 실행하여 결과를 확인해보겠습니다.

MapReduce 작업에 대한 설명은 아래 링크를 확인할 수 있습니다.

https://azure.microsoft.com/ko-kr/documentation/articles/hdinsight-use-mapreduce/

 

MapReduce 관련 작업을 실행하기 위해 반드시 Hadoop Command 에서 실행해야 하는 것은 아닙니다. Azure PowerShell을 통해 Hadoop 클러스터가 아닌 원격에서 실행할 수 도 있습니다.

아래 구문을 하나씩 복사하여 실행할 수 있습니다. Hadoop 버전을 확인하여 진행하면 됩니다.

cd %hadoop_home%

hadoop fs -mkdir /user

hadoop fs -mkdir /user/demo

hadoop fs -copyFromLocal C:\apps\dist\examples\data\gutenberg\davinci.txt /user/demo

hadoop fs -ls /user/demo

hadoop jar C:\apps\dist\hadoop-2.4.0.2.1.15.1-0001\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.4.0.2.1.15.1-0001.jar wordcount /user/demo/*.txt /user/demo/WordCount_Output

hadoop fs -cat /user/demo/WordCount_Output/part-r-00000 | findstr "there"

 

처음은 user 아래에 demo 라는 폴더를 생성합니다.

hadoop fs -mkdir /user/demo

 

WordCount 할 수 있는 원본 파일을 복사해옵니다. 원본 파일은 examples 폴더에 들어가 있습니다.

hadoop fs -copyFromLocal C:\apps\dist\examples\data\gutenberg\davinci.txt /user/demo

 

파일을 확인하기 위해 ls 명령어로 확인해봅니다.

hadoop fs -ls /user/demo

 

이제 jar 파일을 통해 Wordcount 라는 클래스를 통해 Map 함수와 Reduce 함수를 수행하고 출력은 WordCount_Output 이라는 폴더 아래에 생성하도록 jar 명령어를 실행합니다. 마찬가지로 jar 파일은 examples 폴더에 들어가 있습니다. 출력 결과를 보면 Map 작업과 Reduce 작업을 확인할 수 있습니다.

hadoop jar C:\apps\dist\hadoop-2.4.0.2.1.15.1-0001\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.4.0.2.1.15.1-0001.jar wordcount /user/demo/*.txt /user/demo/WordCount_Output

 

결과 파일이 생성되어 있고 내부 내용을 보기 위해 cat, findstr 명령어를 실행합니다.

hadoop fs -cat /user/demo/WordCount_Output/part-r-00000 | findstr "there"

 다음 글에서는 PowerShell을 통해 Word CountHadoop 클러스터에서 실행해보겠습니다.

'Microsft Azure > 고급 분석' 카테고리의 다른 글

Microsoft Azure HDInsight 쿼리 콘솔  (0) 2015.08.28
HDInsight Hadoop – Word Count(2)  (0) 2015.08.14
HDInsight - Hadoop 시작  (0) 2015.08.07
Big Data와 Microsoft Azure HDInsight  (0) 2015.07.19
Azure Machine Learning - 데모  (0) 2015.05.02
댓글