티스토리 뷰

 

이상치 제거 (2) – DAX

 

Power Query에서 이상치를 제거하기 위한 PERCENTILE 함수식을 알아보았습니다. DAX에서도 PERCENTILE 관련 함수가 있습니다. 데이터를 로드하기 전에 이상치를 제거할 수도 있지만, 로드후에 시각화에서 이상치를 제거할 수도 있습니다.

분석 탭을 이용하면 상수선이나 백분율을 적용할 수 있습니다.

 

매출 테이블의 데이터를 기반으로 선형 차트에 먼저 3사분위수를 적용해보겠습니다.

 

 3사분위수에 대한 DAX 함수는 PERCENTILE.INC, PERCENTILE.EXC, PERCENTILEX.INC, PERCENTILEX.EXC 를 이용할 수 있습니다. 제가 가지고 있는 매출 테이블의 Order Quantity는 값을 1만 가지고 있습니다. 매출 테이블에 대해 PERCENTILE을 적용하는 것은 의미가 없습니다. 위 그래프는 년도, 월별로 Order Quantity를 합계하고 있는 것이므로 집계된 데이터에 대해 PERCENTILE을 적용해야 합니다.

 

데이터에 따라 다르겠지만 raw 데이터를 기반으로 함수를 적용하여도 됩니다. 저는 집계된 데이터를 통해 이상치를 제거해보겠습니다.

 

SUMMARIZE 함수를 통해 집계 테이블을 생성한 후 PERCENTILE을 적용해보겠습니다.

PERCENTILE.INC를 통해 사분위수를 구했습니다. 데이터를 살펴보면 년도가 공백인 값도 존재하고 있어 필터링하였습니다.

분석 탭과 DAX 3사분위수, Upper Limit을 시각화에 적용하여 보았습니다.

 

상수선으로 표시하면 이상치에 대한 확인이 가능합니다~

이상치를 제거하는 것이 요구사항이라 시각화에서 3사분위수를 적용해서 필터링하는 것을 진행해보겠습니다. 집계 테이블의 Qty 합계가 Upper Limit 보다 작은 값만 필터링하였습니다.

 

 DAX에서 PERCENTILE.INC 함수를 통해 이상치를 확인하고 시각화에서 필터링해보았습니다.

 

댓글