티스토리 뷰

 

데이터 엔지니어링 시작 키트

 

Python을 알지만, Microsoft Fabric 환경에 익숙하지 않은 사용자의 경우 데이터 파일을 가져오는 방법도 어려워하고, 분석 결과를 Lakehouse 테이블에 저장하는 것도 어려워 아주 난감해합니다.

레이크하우스에 대해서는 계속 학습을 해야 하겠지만, 데이터 파일 업로드 등 기본적인 내용을 확인해보겠습니다.

 

데이터 업로드

먼저 데이터를 레이크하우스에 가져오기 해야 합니다. 데이터베이스 등 다른 환경이라면 데이터 파이프라인 등을 사용해야 하지만, 로컬 파일이라면 데이터 파일 가져오기를 참고해서 로컬 파일을 업로드하면 됩니다.

레이크하우스로 이동하여 [파일 업로드] 메뉴를 클릭하면 됩니다.

 

데이터 엔지니어링 시작 키트

데이터 파일을 업로드하면 Files 밑에 업로드 한 파일을 확인 가능합니다. 그러면 이제 데이터프레임인 df를 생성하여 클렌징하는 등의 작업을 수행해야 하는데요. 관련 코드를 참고할 수 있도록 데이터 엔지니어링 시작 키트(Data Engineering Starter Kit)을 제공하고 있습니다.

왼쪽 아래 아이콘을 클릭하여 Data Engineering 홈으로 이동합니다. 그러면 [샘플 사용]을 확인할 수 있습니다.

 

클릭하여 [Notebook] 탭을 클릭하면 [데이터 엔지니어링 시작 키트]를 확인할 수 있습니다.

Sample로 시작하는 레이크하우스와 노트북 파일이 생성됩니다.

 

Sample로 시작하는 노트북 파일의 코드를 확인하면 df를 생성하고 테이블로 저장하는 python 코드를 확인할 수 있습니다.

 

Loads parquet data into a Spark DataFrame을 통해 데이터프레임 df로 로드할 수 있습니다. 그리고 Delta 테이블로 저장하는 방법을 제공하고 있습니다.

 

데이터 클렌징, 데이터 탐색, 데이터 집계/요약, 데이터 준비 관련된 시나리오 4개를 제공합니다. 코드 작성을 참고할 수 있습니다.

 

데이터 엔지니어링 시작 키트를 간단히 확인해보았습니다.

댓글