HDInsight Hadoop – Word Count(1)

티스토리 뷰

Microsft Azure/고급 분석

HDInsight Hadoop – Word Count(1)

정홍주 2015. 8. 7. 08:30

HDInsight Hadoop – Word Count(1)

Hadoop 클러스터를 원격으로 연결하여 Hadoop Command 에서 아래와 같은 명령어로 Word Count 로 MapReduce 작업을 실행하여 결과를 확인해보겠습니다.

MapReduce 작업에 대한 설명은 아래 링크를 확인할 수 있습니다.

https://azure.microsoft.com/ko-kr/documentation/articles/hdinsight-use-mapreduce/

MapReduce 관련 작업을 실행하기 위해 반드시 Hadoop Command 에서 실행해야 하는 것은 아닙니다. Azure PowerShell을 통해 Hadoop 클러스터가 아닌 원격에서 실행할 수 도 있습니다.

아래 구문을 하나씩 복사하여 실행할 수 있습니다. Hadoop 버전을 확인하여 진행하면 됩니다.

cd %hadoop_home%

hadoop fs -mkdir /user

hadoop fs -mkdir /user/demo

hadoop fs -copyFromLocal C:\apps\dist\examples\data\gutenberg\davinci.txt /user/demo

hadoop fs -ls /user/demo

hadoop jar C:\apps\dist\hadoop-2.4.0.2.1.15.1-0001\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.4.0.2.1.15.1-0001.jar wordcount /user/demo/*.txt /user/demo/WordCount_Output

hadoop fs -cat /user/demo/WordCount_Output/part-r-00000 | findstr "there"

처음은 user 아래에 demo 라는 폴더를 생성합니다.

hadoop fs -mkdir /user/demo

Word를 Count 할 수 있는 원본 파일을 복사해옵니다. 원본 파일은 examples 폴더에 들어가 있습니다.

hadoop fs -copyFromLocal C:\apps\dist\examples\data\gutenberg\davinci.txt /user/demo

파일을 확인하기 위해 ls 명령어로 확인해봅니다.

hadoop fs -ls /user/demo

이제 jar 파일을 통해 Wordcount 라는 클래스를 통해 Map 함수와 Reduce 함수를 수행하고 출력은 WordCount_Output 이라는 폴더 아래에 생성하도록 jar 명령어를 실행합니다. 마찬가지로 jar 파일은 examples 폴더에 들어가 있습니다. 출력 결과를 보면 Map 작업과 Reduce 작업을 확인할 수 있습니다.

hadoop jar C:\apps\dist\hadoop-2.4.0.2.1.15.1-0001\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.4.0.2.1.15.1-0001.jar wordcount /user/demo/*.txt /user/demo/WordCount_Output

결과 파일이 생성되어 있고 내부 내용을 보기 위해 cat, findstr 명령어를 실행합니다.

hadoop fs -cat /user/demo/WordCount_Output/part-r-00000 | findstr "there"

다음 글에서는 PowerShell을 통해 Word Count를 Hadoop 클러스터에서 실행해보겠습니다.

'Microsft Azure > 고급 분석' 카테고리의 다른 글

Microsoft Azure HDInsight 쿼리 콘솔 (0)	2015.08.28
HDInsight Hadoop – Word Count(2) (0)	2015.08.14
HDInsight - Hadoop 시작 (0)	2015.08.07
Big Data와 Microsoft Azure HDInsight (0)	2015.07.19
Azure Machine Learning - 데모 (0)	2015.05.02

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

redJu(홍주)

티스토리 뷰

HDInsight Hadoop – Word Count(1)

'Microsft Azure > 고급 분석' 카테고리의 다른 글

티스토리툴바