Power BI는 ML.NET을 사용하여 주요 인플루언서를 식별합니다.
Power BI는 사용자가 데이터를 시각화하고 조직 간에 인사이트를 공유하거나 앱에 포함할 수 있도록 하는 Microsoft에서 개발한 비즈니스 분석 솔루션입니다. Power BI는 사용자가 데이터에서 보고서를 만들 수 있도록 차트, 그래프 및 계기와 같은 다양한 시각화를 제공합니다. 최근 Power BI는 조직의 모든 사용자가 AI의 기능을 활용하여 더 나은 결정을 내릴 수 있도록 하기 위해 기계 학습을 활용하여 사용자의 복잡한 작업을 간소화하고 있습니다. 2019년 2월 Power BI는 첫 번째 AI 기반 시각화인 주요 인플루언서를 미리 선보였으며 이 시각화는 배후에서 자연스러운 방법으로 ML.NET을 사용하여 데이터를 추론하고 통찰력을 제공합니다.
비즈니스 문제
모든 비즈니스에서 주요 영향 요인(비즈니스 성과 및 결과의 주요 동인)과 고객 세그먼트를 식별하고 이해하는 것은 전략적 비즈니스 결정을 내리고 비즈니스 변경의 우선 순위를 지정하며 경쟁 우위를 확보하는 데 중요합니다. 주요 영향 요인을 분석하면 비즈니스 성과에 가장 큰 영향을 미치는 요인을 파악할 수 있으며 비즈니스에서 "고객이 이 서비스에 대해 부정적인 리뷰를 남기도록 유도하는 요인은 무엇인가요?" 또는 "집값 인상에 영향을 미치는 요인은 무엇인가요?"와 같은 질문에 답하는 데 도움이 될 수 있습니다"
그러나 주요 인플루언서 및 고객 구분에 대한 이러한 데이터 분석 프로세스는 많은 시간, 노력 및 전문 지식이 필요합니다. 주로 여러 함수 코딩, 샘플링, 유의성 테스트 및 결과 순위 지정이 포함됩니다. 따라서 Power BI는 사용자가 의미 있는 인사이트를 얻는 프로세스를 가속화하고 복잡한 코드를 작성하는 데 시간을 할애하지 않고 통계 분석을 수행할 수 있도록 기계 학습 솔루션으로 전환했습니다.
주요 인플루언서 및 ML.NET
Power BI 핵심 인플루언서 시각화를 기계 학습 솔루션으로 만들어 기업이 더 적은 시간에 데이터를 분석하고 주요 비즈니스 결정을 더 빠르게 내릴 수 있도록 AI를 활용할 수 있도록 했습니다. 즉, 사용자는 주요 인플루언서를 사용하여 데이터 분석 시간을 줄이고 AI 시각화에서 수집된 인사이트에 더 많은 시간을 할애할 수 있습니다.
사용자가 분석할 핵심 성과 지표(KPI)(예: 유지율, 클릭률 등)를 선택하면 핵심 영향 요인 시각화는 ML.NET에서 제공하는 기계 학습 알고리즘을 사용하여 가장 중요한 것이 무엇인지 파악합니다. 추가 조사를 위해 흥미로운 세그먼트를 찾는 것뿐만 아니라 측정을 유도하는 데 사용됩니다. 주요 영향 요인은 사용자 데이터를 분석하고, 중요한 요인의 순위를 지정하고, 이러한 요인의 상대적 중요도를 대조하고, 범주 및 숫자 메트릭 모두에 대한 주요 영향 요인 및 상위 세그먼트로 표시합니다.
솔루션 아키텍처
Power BI는 여러 형태로 제공됩니다. Key Influencers 시각화는 모바일, 데스크톱, 공유 서비스, 프리미엄 서비스 형태로 지원됩니다.
사용자가 주요 인플루언서 시각적 개체에 열을 추가하면 학습 데이터가 Analysis Services(Power BI 뒤의 데이터베이스 엔진)로 전송되는 흐름이 트리거됩니다. Analysis Services는 ML.NET을 실행하여 기계 학습 모델을 학습시키고 결과가 반환됩니다. 따라서 사용자가 선택한 기능을 업데이트할 때마다 모델이 학습됩니다. 전반적인 목표는 몇 초 안에 분석을 수행하여 대화형 환경을 가능하게 하는 것입니다.
전체 흐름은 다음과 같습니다.
ML.NET은 온-프레미스(다음에서 사용되는 경우 Power BI Desktop) 또는 클라우드(Power BI 서비스에서 사용되는 경우)에서 .NET Framework 라이브러리로 사용됩니다. Power BI의 데이터 세트는 Analysis Services 고유의 이진 형식으로 저장됩니다.
범주별 주요 영향 요인
범주 메트릭에는 등급 또는 순위와 같은 항목이 포함될 수 있습니다. 아래 예제에서 메트릭은 등급이며, 시각화는 조직의 역할이 소비자가 낮은 등급의 가능성에 영향을 주는 상위 단일 요소임을 확인했습니다. 시각화는 오른쪽 창에 다음과 같은 추가 정보를 표시합니다.
- 소비자의 14.93%가 낮은 점수를 줍니다.
- 평균적으로 다른 모든 역할은 5.78%의 낮은 점수를 제공합니다.
- 소비자는 다른 모든 역할에 비해 낮은 점수를 줄 확률이 2.57배 더 높습니다.
주요 인플루언서는 ML.NET을 사용하여 원 핫 인코딩, 누락값 대체 및 평균 분산 정규화 데이터 변환과 L-BFGS 로지스틱 회귀 알고리즘을 사용하여 범주형 메트릭에 대한 로지스틱 회귀를 실행합니다. 이 경우 알고리즘은 데이터에서 패턴을 검색하고 낮은 평점을 준 고객과 높은 평점을 준 고객이 어떻게 다른지 찾습니다. 예를 들어 지원 티켓이 더 많은 고객은 지원 티켓이 거의 또는 전혀 없는 고객보다 낮은 등급의 비율이 더 높다는 것을 알 수 있습니다.
숫자 주요 인플루언서
숫자 메트릭에는 가격 또는 판매 수치와 같은 항목이 포함될 수 있습니다. 아래 예에서 메트릭은 집값이고 시각화는 주방 품질이 우수함을 확인하여 집값 상승 가능성에 영향을 미치는 최상위 단일 요소임을 확인했습니다.
주요 영향 요인은 ML.NET을 사용하여 범주형 주요 영향 요인과 동일한 데이터 변환을 사용하고 SDCA 회귀 알고리즘을 사용하여 선형 회귀를 실행합니다. 이 경우 알고리즘은 침실 수 또는 평방 피트수와 같은 설명 요소를 기반으로 주택 가격이 어떻게 변하는지 살펴봅니다. 이 경우 우수한 주방이 집값에 미치는 영향을 살펴봅니다.
상위 세그먼트 계산
상위 세그먼트는 선택한 메트릭 값에 기여하는 상위 그룹을 표시합니다. 세그먼트는 값의 조합으로 구성됩니다. 예를 들어 아래 세그먼트는 소비자 또는 관리자, 지원 티켓이 4개 이상, 29개월 이상 고객인 사람입니다. 이 세그먼트의 고객 중 74.3%가 낮은 평점을 줬는데, 이는 평균 고객의 11.7%가 낮은 평점을 준 것과 비교됩니다.
상위 세그먼트는 ML.NET을 사용하여 빠른 트리 알고리즘(범주 및 숫자)을 사용하여 의사결정 트리를 실행하여 흥미로운 하위 그룹을 찾습니다. 목표는 관심 메트릭에서 상대적으로 높은 데이터 요소의 하위 그룹으로 끝나는 것입니다. 이것은 낮은 등급의 고객이나 높은 가격의 주택일 수 있습니다.
알고리즘은 각 설명 요소를 사용하여 최상의 분할을 제공하는 요인을 추론하려고 합니다. 의사 결정 트리는 분할을 수행한 후 데이터의 하위 그룹을 가져와 해당 데이터에 가장 적합한 다음 분할을 결정합니다. 이 경우 하위 그룹은 보안에 의견을 제시한 고객입니다. 각 분할 후에는 이 그룹이 패턴을 유추할 만큼 충분히 대표할 수 있는 충분한 데이터 요소가 있는지 여부 또는 실제 세그먼트가 아닌 데이터의 변칙인지 여부도 고려합니다. 의사 결정 트리 실행이 완료되면 보안 주석 및 대기업과 같은 모든 분할을 가져와 세그먼트를 만듭니다.
Power BI는 ML.NET을 사용하여 고객이 비즈니스의 주요 영향 요인을 쉽게 식별할 수 있도록 하여 시간과 노력을 절약하고 ML.NET 모델에서 생성된 분석 및 통찰력을 기반으로 변경 및 비즈니스 의사 결정에 집중할 수 있도록 합니다.
시작할 준비가 되셨나요?
단계별 자습서는 컴퓨터에서 ML.NET을(를) 실행하는 데 도움이 될 것입니다.