Williams Mullen 使用 ML.NET 提高了生產效率
產品與服務
ML.NET
Azure
Visual Studio
SQL Server
Office 365
產業
法律作法 / 專業服務
組織規模
適中 (100-1000 名員工)
國家/地區
美國
Williams Mullen 是一間提供完整服務的公司法律師事務所,專精於公司法、訴訟、財務和房地產。該公司意識到,讓律師們梳理數百萬份文件占用了他們實際為客戶工作的時間。這促使該公司鑽研一種機器學習解決方案。在意識到許多問題其實是分類問題之後,他們決定使用 ML.NET 進一步探索。
商務問題
就技術來說,律師主要使用兩種應用程式: Word 和 Outlook。這會以 Word 文件、PDF 和電子郵件的形式轉譯為相當大量的非結構化資料,並置於文件管理系統中,其中包含數十年的數位資訊。當律師想要在這些文件中尋找特定資訊時,這會變成一種挑戰,因為這些資訊是透過搜尋文件中繼資料來執行,其中的資訊經常遺失、不正確或過期。
由於這項手動流程,William Williamen 發現數以百萬計的文件發生問題,因此無法輕鬆搜尋文件,這會浪費律師時間並造成收入損失。
為什麼要使用 ML.NET?
法律業在談到科技抉擇時多半選擇 Microsoft。Williams Mullen 也不例外; 他們的開發人員大量使用 C#。他們在 ML.NET 推出的大約同期開始尋找機器學習解決方案,因此為其分類案例開始使用 ML.NET 便成為很自然的合適選擇。
ML.NET 的影響
透過他們的研究,William Mullen 發現其系統中 20% 的文件 (例如數百份文件) 發生了一些問題,導致文件無法輕鬆搜尋,因此浪費了律師的時間並造成收入的損失。若非使用 ML.NET,則公司可能根本無法接手該專案,或可能必須將人員從實際的工作中拉出以手動修正這些問題,這都可能會導致專案數十萬美元的成本。
透過 ML.NET,我們就能為模型定型,然後立即在程式碼中進行測試。這樣可以更快速地傳送新的變更,因為所有工具都集中在一起。」
解決方案架構
正在使用 ML.NET 建立應用程式
架構只是兩個 .NET Core 主控台應用程式和資料庫。一個主控台應用程式會將訓練資料拉出,準備資料並訓練模型。另一個主控台應用程式會拉出執行模型時所需的資料,並將模型載入以分類資料,並在將資料傳回資料庫之前將其關閉。
這個專案的樂趣就是上手有多簡單,因此我們不需要任何複雜的方法。訓練應用程式只有 200 行程式碼,具有批註、記錄等等,而執行模型的應用程式則更小。整個工作的最大部分是轉換程式碼,原本的程式碼為 13 行程式碼。」
資料處理
定型資料大約是 2 百萬份文件,這些文件來自法律公司的文件管理系統。資料本身包含來自文件、標題、作者、收件者 (適用於電子郵件),以及其他中繼資料的內容,視要清理的欄位而定。
資料轉換和機器學習演算法
Williams Mullen 已在數種的應用程式上嘗試了多種不同的資料轉換和訓練演算法。資料轉換包括 NormalizeText、TokenizeWords、RemoveDefaultStopWords、OneHotHashEncoding、FeaturizeText、ExtractWordEmbeddings 與 ProduceNGrams。為了進行訓練,他們主要使用 StochasticDualCoordinateAscent 與 OneVersusAll 分類演算法。
Williams Mullen 使用 ML.NET 的資料轉換和演算法來建立機器學習解決方案,讓上百萬份文件更具可搜尋性,進而協助其律師做事更有效率。
準備開始了嗎?
我們的逐步教學課程可協助您讓 ML.NET 在電腦上執行。