복사 작업(CopyJob)
복사 작업(CopyJob)
데이터를 분석 및 시각화하기 위해서 데이터 가져오기가 선행되어야 합니다. 데이터 가져오기에 대한 Microsoft Fabric의 항목은 크게 Data Pipeline과 데이터 흐름 2세대가 있습니다. 사용하다 보면 Data Pipeline은 데이터 대상의 테이블을 각각 지정을 해야 해서테이블 수가 많아지면 작업이 좀 제한적입니다. 데이터 흐름 2세대의 경우는 기본 대상을 추가할 수 있어 번거로운 점이 줄어들었지만 증분 데이터를 복사하는 것에는 번거로운 점이 있습니다만 변환이 편하다는 장점을 제공합니다.
데이터 가져오기에서는 “복사 작업”이라는 항목도 제공하고 있습니다. 7월에 복사 작업에서 새로운 업데이트가 있어 다루어보겠습니다. 여러 테이블을 한꺼번에 복사하는 경우 편하게 작업이 가능하며, 추가로 증분 복사를 제공하므로 지속적으로 데이터를 이관할 경우 이점이 있습니다. 여기서는 간략히 복사 작업 항목의 증분 복사와 데이터 업데이트 내용을 확인해보겠습니다.

데이터 원본에서 테이블을 선택하여 데이터 대상으로 한꺼번에 데이터를 복사할 수 있습니다.

데이터 대상이 레이크하우스라면 데이터 업데이트 방법으로 추가, 업데이트, 병합하는 방법을 제공합니다. 여기서 업데이트는 삭제후 추가하는 방법으로 병합과는 차이가 있습니다.

증분 복사를 이용하려면 해당 테이블에 변경날짜와 같은 증분 컬럼이 있어야 합니다.

실행기록과 모니터링을 통해 진행률과 메트릭을 모니터링 할 수 있습니다.
여러 상황에 따라 구체적으로 테스트를 해봐야 할 것 같습니다. DW데이터베이스에도 필요하다면 설계시 증분열을 고려해야 합니다.
환경에 따라 적절한 데이터 가져오기 방법을 이용할 수 있습니다. 간략히 복사 작업 항목을 확인해보았습니다.