티스토리 뷰
HDInsight Hadoop – Word Count(1)
Hadoop 클러스터를 원격으로 연결하여 Hadoop Command 에서 아래와 같은 명령어로 Word Count 로 MapReduce 작업을 실행하여 결과를 확인해보겠습니다.
MapReduce 작업에 대한 설명은 아래 링크를 확인할 수 있습니다.
https://azure.microsoft.com/ko-kr/documentation/articles/hdinsight-use-mapreduce/
MapReduce 관련 작업을 실행하기 위해 반드시 Hadoop Command 에서 실행해야 하는 것은 아닙니다. Azure PowerShell을 통해 Hadoop 클러스터가 아닌 원격에서 실행할 수 도 있습니다.
아래 구문을 하나씩 복사하여 실행할 수 있습니다. Hadoop 버전을 확인하여 진행하면 됩니다.
cd %hadoop_home%
hadoop fs -mkdir /user
hadoop fs -mkdir /user/demo
hadoop fs -copyFromLocal C:\apps\dist\examples\data\gutenberg\davinci.txt /user/demo
hadoop fs -ls /user/demo
hadoop jar C:\apps\dist\hadoop-2.4.0.2.1.15.1-0001\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.4.0.2.1.15.1-0001.jar wordcount /user/demo/*.txt /user/demo/WordCount_Output
hadoop fs -cat /user/demo/WordCount_Output/part-r-00000 | findstr "there"
처음은 user 아래에 demo 라는 폴더를 생성합니다.
hadoop fs -mkdir /user/demo
Word를 Count 할 수 있는 원본 파일을 복사해옵니다. 원본 파일은 examples 폴더에 들어가 있습니다.
hadoop fs -copyFromLocal C:\apps\dist\examples\data\gutenberg\davinci.txt /user/demo
파일을 확인하기 위해 ls 명령어로 확인해봅니다.
hadoop fs -ls /user/demo
이제 jar 파일을 통해 Wordcount 라는 클래스를 통해 Map 함수와 Reduce 함수를 수행하고 출력은 WordCount_Output 이라는 폴더 아래에 생성하도록 jar 명령어를 실행합니다. 마찬가지로 jar 파일은 examples 폴더에 들어가 있습니다. 출력 결과를 보면 Map 작업과 Reduce 작업을 확인할 수 있습니다.
hadoop jar C:\apps\dist\hadoop-2.4.0.2.1.15.1-0001\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.4.0.2.1.15.1-0001.jar wordcount /user/demo/*.txt /user/demo/WordCount_Output
결과 파일이 생성되어 있고 내부 내용을 보기 위해 cat, findstr 명령어를 실행합니다.
hadoop fs -cat /user/demo/WordCount_Output/part-r-00000 | findstr "there"
다음 글에서는 PowerShell을 통해 Word Count를 Hadoop 클러스터에서 실행해보겠습니다.
'Microsft Azure > 고급 분석' 카테고리의 다른 글
Microsoft Azure HDInsight 쿼리 콘솔 (0) | 2015.08.28 |
---|---|
HDInsight Hadoop – Word Count(2) (0) | 2015.08.14 |
HDInsight - Hadoop 시작 (0) | 2015.08.07 |
Big Data와 Microsoft Azure HDInsight (0) | 2015.07.19 |
Azure Machine Learning - 데모 (0) | 2015.05.02 |
- Total
- Today
- Yesterday
- sql server 2012
- Cloud
- Windows Azure 업데이트
- Visual Studio 2010
- Windows Azure Mobile Services
- SharePoint 2010
- Power BI Update
- Power BI Desktop 업데이트
- SQL Azure
- SharePoint 2013
- Power BI Copilot
- 업데이트
- 정홍주
- Microsoft Fabric
- hongju
- 클라우드
- SharePoint Object Model
- SharePoint Online
- redJu
- 페이지를 매긴 보고서
- Power BI Desktop Update
- Power BI
- copilot
- Power BI Desktop
- 목표
- Power BI 업데이트
- Windows Phone 7
- sharepoint
- Paginated Report
- Windows Azure
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |