Power BI 使用 ML.NET 识别关键影响者
Power BI 是由 Microsoft 开发的一种业务分析解决方案,允许用户可视化数据、跨组织共享见解或将其嵌入到应用中。Power BI 提供了各种可视化效果,例如图表、图形和仪表,可帮助用户根据其数据创建报表。最近,Power BI 一直在利用机器学习来简化用户的复杂任务,以使组织中的每个人都能利用 AI 的力量做出更好的决策。2019 年 2 月,Power BI 预览了其第一个采用人工智能技术的可视化效果“关键影响因素”,它在后台利用 ML.NET 以一种自然的方式处理数据和分析见解。
业务问题
对于任何业务而言,确定和理解关键影响因素(业务绩效和结果的主要驱动因素)和客户细分对于制定战略性业务决策、确定业务更改的优先级以及获得竞争优势至关重要。分析关键影响因素可以揭示哪些因素对业务绩效的影响最大,并可以帮助企业回答诸如“哪些因素会导致客户对此服务留下负面评价?”或“哪些因素会影响房价的增加?”等问题
然而,此类数据分析流程需要花费关键影响者和客户细分市场大量的时间、精力和专业知识; 通常需要在代码端编写多个函数、进行抽样、显著性测试和排名结果。因此,Power BI 演变为机器学习解决方案,以便能够帮助用户更快地获取有意义的见解,并且无需花费时间编写复杂的代码,即可进行统计分析。
关键影响因素和 ML.NET
Power BI 将关键影响者可视化效果创建为机器学习解决方案,使企业能够利用人工智能,以便在更短的时间内分析数据,更快地做出关键业务决策。换言之,用户可以使用关键影响者花更少的时间分析数据,把主要时间用于根据 AI 可视化收集的见解采取行动。
用户选取关键性能指标(KPI)以进行分析(例如,保留率、点击率等)后,“关键影响因素”可视化会使用 ML.NET 提供的机器学习算法确定驱动指标中最重要的内容,并查找有趣区段以供进一步调查。“关键影响因素”会分析用户数据、对重要因素设置级别、对比这些因素的相对重要性,并将其显示为分类指标和数值指标的关键影响因素和顶层区段。
解决方案体系结构
Power BI 以多种形式提供。移动、桌面、共享服务和高级服务表单支持关键影响因素可视化效果。
当用户向“关键影响者”视觉对象添加列时,将触发其中培训数据将发送到 Analysis Services (Power BI 背后的数据库引擎) 的流。Analysis Services 运行 ML.NET 来训练机器学习模型,并返回结果。因此,每当用户更新选定功能时,都会对模型进行训练。总体目标是在几秒钟内完成分析,实现交互式体验。
整体流程如下所示:
ML.NET 用作 .NET Framework 库并在本地(如果在 Power BI Desktop 中使用)或在云中运行(如果在 Power BI 服务中使用)。Power BI 中的数据集以 Analysis Services 原生的二进制格式存储。
分类关键影响因素
分类指标可以包括评级或排名等内容。在下面的示例中,指标是“评级”,并且可视化效果已确定“组织中的角色是消费者”是影响低评级可能性的首要因素。可视化效果会在右窗格中显示其他信息,例如:
- 14.93% 的 客户 给予低分。
- 平均而言,其他所有角色的时间分数较低,为 5.78%。
- 使用者给出低评分的可能性比所有其他角色高出 2.57 倍。
“关键影响因素”将 ML.NET 用于对分类指标运行逻辑回归,使用 独热编码、替换缺少值、规范化均值方差 数据转换以及 L-BFGS 逻辑回归 算法。在本例中,算法会在数据中搜索模式,并查找给予低评级的客户与给予高级别的客户之间可能存在的差异。例如,其可能会发现,与支持票证少或没有票证的客户相比,支持票证多的客户给予低评级的百分比更高。
数字键影响因素
数值指标可以包括价格或销售数据之类的内容。在下面的示例中,指标为“房价”,并且可视化效果确定“厨房质量优秀的”是一项会影响房价增加可能性的主要单个因素。
“关键影响因素”使用 ML.NET 运行线性回归,使用与分类关键影响因素相同的数据转换,并使用 SDCA 回归 算法。在本例中,该算法会根据解释因素(例如卧室数量或建筑面积)研究房价的变化情况。在本例中,其研究拥有优质厨房将对房价产生的影响。
计算排名靠前的段
顶级客户细分显示为所选指标值做出贡献最多的组。细分由值的组合组成。例如,以下部分是用户或管理员的人员,他们的支持票证超过 4 个,成为客户的时间已超过 29 个月。此细分中 74.3% 的客户给了低评级,而相较平均客户中,当时只有 11.7% 的人给了低评级。
顶级段使用 ML.NET 运行决策树,使用 快速树 算法(分类和数值),以查找有趣的子组。目标是最终得到数据点的一个子组,这些数据点在相关度量值方面相对较高。这可能是评级较低的客户或价格较高的房屋。
该算法采用每个解释因素,并尝试推断哪个因子为其提供最佳拆分。在决策树进行拆分后,它将获取数据的子组,并确定该数据的下一个最佳拆分。在这种情况下,子组是评论安全性的客户。每次拆分后,它还考虑它是否有足够的数据点使此组具有足够的代表性来推断模式,或者它是否在数据中异常,而不是实际段。决策树完成运行后,将采用所有拆分,例如安全注释和大型企业,并创建段。
Power BI 使用 ML.NET 来帮助客户轻松识别业务中的关键影响因素,从而为他们节省时间和精力,使他们能够专注于根据 ML.NET 模型生成的分析和见解,进行更改和制定业务决策。
准备好开始使用了吗?
分步教程将帮助你在计算机上运行 ML.NET。