HMRI는 ML.NET을 사용하여 의료 연구를 위한 Human-In-The-Loop ML 프레임워크를 구축했습니다.
고객
HMRI
제품 및 서비스
ML.NET
Visual Studio
SQL Server
ASP.NET Core
Office 365
업계
의료
조직 규모
대규모(직원 1,000명 이상)
국가/지역
오스트레일리아
Hunter Medical Research Institute(HMRI)는 지역사회의 건강과 웰빙을 개선하는 것을 목적으로 하는 조직입니다. 과학자, 임상의 및 공중 보건 전문가를 한자리에 모아 새롭고 더 나은 건강 솔루션을 신속하게 제공합니다.
가장 최근에는 뉴캐슬 대학교의 Neva Bull 박사와 Neil Spratt 교수, 호주 국립 대학교의 Simon Quilty 박사 및 Northern Territory Health의 Bridget Honan 박사로 구성된 다학문 팀과 협력하여 기계 학습 개발 프레임워크를 구축했습니다. 의료 연구원을 위해. 이 프레임워크를 통해 의료 연구자는 기계 학습 경험이 거의 또는 전혀 없이 연구 목적으로 임상 데이터를 쉽게 사용할 수 있습니다. 또한 기술과 경험을 기계 학습 프로세스에 통합하는 피드백 루프가 포함되어 있습니다. 이 프레임워크의 초기 구현은 극심한 더위로 인한 사망 및 입원 조사에 중점을 두었습니다.
연구에 대한 자세한 내용은 "A method for Rapid Machine Learning Development for Data Doctor-In-The-Loop", Neva J Bull, Bridget Honan, Neil J. Spratt, Simon Quilty에서 확인할 수 있습니다.
비즈니스 문제
의료 기관에는 많은 양의 데이터가 있습니다. 일반적으로 이 데이터는 구조화되지 않은 텍스트 형식입니다. 디지털화하더라도 데이터에서 의미 있고 실행 가능한 통찰력을 추출하기 어려운 경우가 많습니다. 정규식, SQL 쿼리 및 '기성품' 자연어 처리 소프트웨어와 같은 기술은 성공을 거두지 못했습니다.
이러한 경우 기계 학습은 데이터에서 중요한 정보를 분석하고 추출하는 데 도움이 될 수 있습니다. 기계 학습 도구는 이전에 다양한 임상 및 연구 목적을 위해 임상 기록을 범주로 분류하는 데 사용되었습니다. 그러나 이러한 기계 학습 도구를 사용하려면 소프트웨어 개발 또는 종종 의료 전문가의 범위를 벗어난 기술 데이터 과학 기술이 필요한 경우가 많습니다.
모델이 훈련되는 시나리오에서도 감독되지 않은 상태로 두면 실제 환경에서 모델을 사용할 때 차선의 결과를 얻을 수 있습니다. 의료 결정에 관련된 높은 이해 관계로 인해 의료 전문가가 자신의 모델을 신뢰할 수 있고 모델이 잘못된 경우 전문 지식을 사용하여 피드백을 제공하는 것이 중요합니다.
이러한 이유로, HMRI의 연구원들은 ML.NET을 사용하여 의료 전문가가 데이터에 레이블을 지정하고 모델을 학습시키고 프로그래밍이나 기계 학습 환경이 필요하지 않은 추론에 이러한 모델을 더 쉽게 사용할 수 있도록 HITL(Human-In-The-Loop) 기계 학습 개발 프레임워크를 개발했습니다. 더 중요한 것은 의료 전문가가 자신의 기술과 전문 지식을 기계 학습 프로세스에 통합할 수 있도록 피드백 메커니즘을 빌드한 것입니다. 따라서 이러한 수준 높은 감독을 통해 데이터 요소가 적은 실제 사용 사례에서 더 나은 결과를 얻을 수 있습니다.
왜 ML.NET를 사용해야 하나요?
HMRI가 ML.NET을 선택한 주요 이유 중 하나는 .NET 에코시스템 내에 머물 수 있는 능력이었습니다. .NET에 의존하는 기술 스택이 있다는 것은 .NET이 아닌 솔루션과의 통합이 기술 및 리소스 문제를 제기한다는 것을 의미했습니다. ML.NET을 사용하여 HMRI는 기존 기술과 지식을 활용하여 기계 학습 솔루션을 구축할 수 있었습니다.
ML.NET의 영향
HMRI는 Model Builder를 사용하여 ML.NET을 시작했습니다. Model Builder는 기계 학습을 사용하여 문제를 해결할 수 있는지를 신속하게 확인하는 방법을 제공했습니다. 문제 해결에 기계 학습을 사용하는 효율성을 검사한 후에는 ML.NET AutoML(자동화된 Machine Learning) API를 활용했습니다. ML.NET AutoML API는 사용자 지정 HITL 기계 학습 개발 프레임워크 내에서 파이프라인 및 하이퍼 매개 변수 최적화뿐만 아니라 알고리즘 선택을 자동화했습니다.
ML.NET을 사용하여 HMRI는 개발 노력을 아웃소싱할 필요가 없었고 기존 기술과 리소스를 사용하여 모든 것을 사내에서 구축할 수 있었습니다.
또한 ML.NET을 솔루션의 일부로 활용하여 의료 전문가가 프로그래밍이나 기계 학습 경험이 필요하지 않은 기계 학습 모델을 훈련하고 사용할 수 있는 인터페이스를 제공할 수 있었습니다.
솔루션 아키텍처
사용자가 상호 작용하는 인터페이스는 모델 교육 및 소비 단계에서 여러 작업을 지원하는 웹 응용 프로그램입니다.
데이터
초기 구현의 경우 모델을 훈련하는 데 사용된 데이터는 과거 의료 기록에서 가져왔습니다. 사용된 데이터 세트 중 하나는 약 30,000개의 기록을 포함하는 40년 사망률 데이터베이스이고 다른 하나는 약 13,000개의 기록이 포함된 항공 의료 검색 데이터 세트입니다.
데이터는 SQL Server 데이터베이스에 저장됩니다. 학습 전에 의료 전문가는 웹 애플리케이션을 사용하여 테스트 세트에 미리 정의된 범주로 레이블을 지정하여 학습 루프 동안 정확도 메트릭을 계산합니다. 그런 다음 무작위로 선택된 작은 데이터 세트가 첫 번째 훈련 라운드에 사용됩니다.
학습, 평가 및 소비 워크플로
모델 교육은 웹 애플리케이션의 의료 전문가에 의해 트리거됩니다. 서버 측 ML.NET 코드는 모델 교육 및 재교육을 처리합니다. 그런 다음 모델은 나머지 모든 데이터를 예측합니다. 예측 및 신뢰도 점수는 SQL Server 데이터베이스에 저장됩니다. SQL Server 저장 프로시저는 테스트 집합에 대한 정확도 메트릭을 계산하고 저장하는 데 사용됩니다. 이러한 메트릭은 웹 애플리케이션을 통해 의료 전문가에게 다시 표시됩니다. 이 전체 프로세스는 몇 초 안에 완료됩니다.
* 실제 환자 데이터가 아님
의료 전문가들은 리콜 및 특이성 메트릭을 직관적으로 사용하여 레이블을 지정할 추가 사례 선택을 안내할 수 있음을 발견하여 모델 성능을 최대한 빠르게 개선할 수 있었습니다. 신뢰도 점수에 따른 정렬을 기반으로 레이블 지정을 선택적으로 타겟팅하여 추가 성능 향상을 실현했습니다. 이를 위해 의료 전문가들은 낮은 점수로 예측을 확인하는 것은 물론, 높은 점수로 잘못된 예측을 바로잡는 등 능동적인 학습에 임했습니다.
```이 시점에서 의료 전문가는 수정된 데이터 레이블을 사용하여 모델을 재교육하는 작업을 시작할 수 있습니다. 이 레이블, 학습, 평가 루프는 의료 전문가가 모델의 성능에 만족할 때까지 계속됩니다. 학습 이벤트 타임스탬프, 평가 메트릭 및 기타 정보는 나중에 검사하고 감사할 수 있도록 SQL Server 데이터베이스에 기록됩니다.
레이블, 훈련, 평가 루프가 완료된 후 SQL Server의 내장된 난수 생성기를 사용하여 SQL Server 데이터베이스에서 예측의 유효성 검사 집합이 선택됩니다. 이 데이터 포인트는 모델의 예측을 무시하는 의료 전문가 패널에 의해 레이블이 지정되었습니다.
모델의 결과 정확도는 90년대 중후반이었습니다. 이 결과는 연구자들이 진행 중인 의료 연구에서 모델에 의해 생성된 범주화를 사용할 수 있다는 확신을 주었습니다. HITL 워크플로와 결합된 ML.NET의 속도는 정확도 저하 없이 매우 효율적이고 비용 효율적인 방식으로 다양한 분류 작업 및/또는 다양한 데이터 세트에 대해 반복할 수 있음을 의미했습니다.
향후 계획
HMRI 연구원들이 개발한 Doctor-In-The-Loop 워크플로는 의료 자유 텍스트의 빠르고 정확한 분류에 의존하는 미래 연구에 매우 유용할 것입니다.
시작할 준비가 되셨나요?
단계별 자습서는 컴퓨터에서 ML.NET을(를) 실행하는 데 도움이 될 것입니다.