ML.NET 튜토리얼 - 시작하기(10분)

데이터 다운로드 및 추가

UCI Machine Learning 리포지토리에서 Sentiment Labeled Sentences 데이터 세트를 다운로드합니다. sentiment labelled sentences.zip의 압축을 풀고 yelp_labelled.txt 파일을 myMLApp 디렉터리에 저장합니다.

솔루션 탐색기는 다음과 같아야 합니다.

Visual Studio 솔루션 탐색기

yelp_labelled.txt의 각 행은 Yelp에서 사용자가 남긴 식당에 대한 다른 리뷰를 나타냅니다. 첫 번째 열은 사용자가 남긴 메모를 나타내고 두 번째 열은 텍스트의 감정을 나타냅니다(0은 부정, 1은 긍정). 열은 탭으로 구분되고 데이터 세트에는 머리글이 없습니다. 데이터는 다음과 같이 표시됩니다.

yelp_labelled.txt
Wow... Loved this place.	        1
Crust is not good.	        0
Not tasty and the texture was just nasty.	        0

데이터 추가

Model Builder에서 로컬 파일의 데이터를 추가하거나 SQL Server 데이터베이스에 연결할 수 있습니다. 이 경우 파일에서 yelp_labelled.txt를 추가합니다.

  1. 입력 데이터 소스 유형으로 파일을 선택합니다.

  2. yelp_labelled.txt를 찾습니다. 데이터세트를 선택하면 데이터 미리 보기 섹션에 데이터 미리 보기가 나타납니다. 데이터세트에 헤더가 없으므로 헤더가 자동 생성됩니다("col0" 및 "col1").

  3. 예측할 열(레이블)에서 "col1"을 선택합니다. 레이블은 예측하는 것으로, 이 경우 데이터 세트의 두 번째 열("col1")에 있는 감정입니다.

  4. 레이블을 예측하는 데 사용되는 열을 기능이라고 합니다. 레이블 외에 데이터 세트의 모든 열이 자동으로 기능으로 선택됩니다. 이 경우 검토 주석 열("col0")은 기능 열입니다. 기능 열을 업데이트하고 고급 데이터 옵션에서 다른 데이터 로드 옵션을 수정할 수 있지만 이 예제에서는 필요하지 않습니다.

Model Builder 데이터 단계

데이터를 추가한 후 학습 단계로 이동합니다.

계속