데이터 흐름 2세대(Dataflow Gen2) - 데이터 가져오기 필터링
데이터 흐름 2세대(Dataflow Gen2) - 데이터 가져오기 필터링
Microsoft Fabric & Copilot 스터디 모임에서 데이터 흐름 2세대(Dataflow Gen2)을 이용하여 데이터를 수집 시 원본 데이터베이스에서 필요한 데이터만 가져가는 얘기가 나와 정리해보겠습니다.
원본 데이터베이스에는 2005년부터의 과거 데이터가 존재하나, 2014년 데이터가 필요하다면 모든 데이터를 가져올 필요 없이 2014년에 해당하는 데이터만 가져와야 합니다. 데이터 흐름 2세대와 Power Query 등에서 필요한 데이터만 가져오려면 어떻게 해야 할까요?
데이터 가져오기의 고급 옵션에서 SQL문에 쿼리를 입력하는 방법도 있습니다만 쿼리구문을 각각 입력하여 연결을 테이블별로 생성해야 하며 SQL 구문을 사용해야 합니다.
필요한 데이터만 가져오기 위해 제일 간단한 방법은 데이터 가져오기의 쿼리에서 필터를 해주고 불필요한 열을 제거하면 됩니다.
아래에서 쿼리를 추적하여 간략히 확인해보겠습니다.
Azure SQL 데이터베이스를 원본 데이터베이스로 데이터 흐름 2세대를 통해 데이터를 가져와 레이크하우스에 저장해보겠습니다. FactInternetSales 쿼리에서 OrderDateKey 열을 “20140101”보다 큰 데이터로 필터링을 했습니다.

데이터 흐름 2세대를 새로 고침하여 실행한 후, 쿼리를 추적하여 결과를 확인해보겠습니다.

추적 결과에서 FactInternetSales로 필터를 추가하여 확인해보면 WHERE 절에서 필터값이 추가되어 데이터 가져오기가 수행되는 것을 확인할 수 있습니다.
from [dbo].[FactInternetSales] as [_]
where [_].[OrderDateKey] >= 20140101
데이터 흐름 2세대와 Power Query 편집기에서 데이터를 가져올 때, 필요한 데이터를 위해서는 먼저 필요한 열 선택과 열 필터링을 적용하면 됩니다.