Williams Mullen 通过 ML.NET 提高了工作效率
产品和服务
ML.NET
Azure
Visual Studio
SQL Server
Office 365
行业
法律实践/专业服务
组织规模
中型(100-1000 名员工)
国家/地区
美国
Williams Mullen 是一家提供全面服务的公司法律事务所,专门从事公司法、诉讼、金融和房地产业务。该公司意识到,让律师梳理数以百万计的文件占用了他们为客户实际工作的时间。这促使该公司研究了一种机器学习解决方案。他们意识到很多问题都实则为分类问题后,便决定用 ML.NET 进一步探索。
业务问题
这意味着大量非结构化数据以 Word 文档、PDF 和电子邮件的形式呈现在文档管理系统中,该系统可能包含数十年的数字信息。当律师想要在这些文档中查找特定信息时,这就成为了一项挑战,他们可通过搜索文件元数据来实现,这些信息经常会丢失、不正确或过时。
由于此手动过程,William Mullen 发现数百万个文档存在阻止文档易于搜索的问题,从而浪费了律师时间并导致收入损失。
为什么选择 ML.NET?
法律行业在选择技术时十分以 Microsoft 为中心。Williams Mullen 也不例外;他们的开发人员都是 C# 的深度用户。就在 ML.NET 发布的同一时期,他们开始寻找机器学习解决方案。因此,对于他们的分类方案而言,开始使用 ML.NET 可谓是再自然不过了。
ML.NET 的影响
通过研究,William Mullen 发现在他们的系统中,有 20% 的文件(例如,数百万份文件)存在问题,使得这些文件无法轻松搜索,这不仅浪费了律师时间,还导致了收入损失。如果不是为了 ML.NET,该公司根本不会承接该项目,或不得不迫使员工放下实际工作来手动修复这些问题,这可能会导致数十万美元的成本。
借助 ML.NET,我们能够训练模型,然后立即在代码中进行测试。这样可以更快地发布新的更改,因为所有工具都集中在一起。”
解决方案体系结构
使用 ML.NET 创建应用程序
该体系结构只有两个 .NET Core 控制台应用程序和一个数据库。一个控制台应用会提取训练数据、准备数据并训练模型。另一个控制台应用会提取运行模型所需的数据,加载模型以对数据进行分类,将其关闭,然后再将数据放回数据库中。
此项目的乐趣在于开始非常简单,因此,我们无需任何复杂的事物。我的意思是定型应用共有 200 行代码,其中包含注释、记录等,且运行模型的应用甚至更小。整个项目的最大部分是 13 行代码中出现的转换代码。”
数据处理
训练数据大约有两百万个文档,来自该法律事务所的文档管理系统。数据本身包括来自文档的内容、标题、作者、收件人(对于电子邮件)和其他元数据位,具体取决于要清理的字段。
数据转换和机器学习算法
Williams Mullen 在几个不同的应用程序中尝试了几种不同的数据转换和定型算法。数据转换包含 NormalizeText、TokenizeWords、RemoveDefaultStopWords、OneHotHashEncoding、FeaturizeText、ExtractWordEmbeddings 和 ProduceNGrams。对于定型,他们主要使用 StochasticDualCoordinateAscent 和 OneVersusAll 分类算法。
通过使用 ML.NET 的数据转换和算法创建机器学习解决方案,Williams Mullen 已经能够增强数百万个文档的可搜索性,进而帮助其律师提高了工作效率。
准备好开始使用了吗?
分步教程将帮助你在计算机上运行 ML.NET。