티스토리 뷰

Microsoft Faric

Microsoft Fabric – Data Science

정홍주 2023. 10. 30. 08:00

 

Microsoft Fabric – Data Science

 

이번 글에서는 Microsoft Fabric의 Data Science에 대한 내용을 간략히 확인해보겠습니다. Data Science를 이용하여 데이터 탐색, 준비 정리부터 실험, 모델링, 모델 점수 매기기 예측 인사이트 제공에서 BI 보고서에 이르기까지 전체 데이터 과학 프로세스에서 광범위한 활동을 수행할 있습니다.

Microsoft Fabric에서 Data Science 홈을 클릭해보면 모델, 실험, 노트북, 샘플을 확인할 수 있습니다.

노트북을 생성해보면 빈 값만 있어, Data Science 홈에 나오는 샘플을 이용해보는 것이 더 효과적입니다.

PySpark(Python)가 기본값이며, seaborn numpy pandas 등 라이브러리를 설치하여 데이터를 탐색, 준비, 시각화를 수행할 수 있습니다. 특이한 점은 위 그림에서 보는 것처럼 왼쪽 창에서 Lakehouse를 연결할 수 있다는 것입니다. 데이터를 변환, 시각화, 실험, 학습 등을 수행하기 위해서는 데이터가 필요합니다. 위 링크의 자습서를 설명하기 위한 다이어그램을 확인해보면 이해가 더 빠를 것 같습니다.

 

데이터 원본에서 데이터를 다운로드하여 레이크하우스에 적재한 후 진행할 수 있으며, 학습 후 예측 결과를 레이크하우스에 저장할 수 있습니다. 그리고 저장된 예측 결과를 Power BI 보고서로 시각화할 수 있습니다.

 

간략히 흐름을 정리해보겠습니다.

아래는 Azure Blob에서 파일을 다운로드하여 레이크하우스에 저장하고 있습니다.

노트북에서 데이터를 탐색하고, 변환, 정리, 시각화할 수 있습니다.

모델을 Random Forest를 통해 학습합니다.

예측 결과를 레이크하우스의 테이블에 저장하는 코드입니다.

저장된 예측 결과를 Power BI 보고서로 시각화하여 인사이트를 도출하고 공유합니다.

 

Power BI 보고서를 생성하는 분은 Python 환경이 익숙하지 않을 것이며, Python으로 작업하는 데이터 과학자는 레이크하우스, Microsoft Fabric 환경이 익숙하지 않은 점이 있습니다. Microsoft Fabric은 통합 분석 환경을 제공하므로 여러 환경이나 도구를 사용하지 않아도 됩니다. Microsoft Fabric의 Data Science를 통해 레이크하우스에서 데이터를 로드하여, 데이터를 탐색, 변환, 정리, 시각화하고 실험, 모델링, 평가를 수행하여 결과를 레이크하우스에 저장하고 Power BI 보고서로 시각화할 수 있습니다.

댓글