ML.NET 教程 - 10 分钟入门

下载并添加数据

下载 UCI 机器学习存储库中的带情绪标签的句子数据集。解压缩 sentiment labelled sentences.zip 并保存 yelp_labelled.txt 文件到 myMLApp 目录。

你的解决方案资源管理器应如下所示:

Visual Studio 解决方案资源管理器

yelp_labelled.txt 中的每一行代表用户在 Yelp 上对餐厅的不同评论。第一列代表用户留下的评论,第二列代表文本的情绪(0 为负面,1 为正面)。这些列由制表符分隔,并且数据集没有标头。数据如下所示:

yelp_labelled.txt
Wow... Loved this place.	        1
Crust is not good.	        0
Not tasty and the texture was just nasty.	        0

添加数据

在 Model Builder 中,可以从本地文件添加数据或连接到 SQL Server 数据库。这次你将从文件添加 yelp_labelled.txt

  1. 选择 文件 作为输入数据源类型。

  2. 浏览 yelp_labelled.txt。选择数据集后,数据预览会显示在 数据预览 部分中。由于数据集没有标头,因此将自动生成标头("col0" 和 "col1")。

  3. 在“预测列 (标签)”下,选择 "col1"。“标签”是预测内容,在本例中是在数据集的第二列 ("col1") 中发现的情绪。

  4. 用于帮助预测标签的列称为“特征”。除“标签”外,数据集中的所有列都将自动选择为“特征”。在这种情况下,审阅评论列(“col0”)是特征列。可以在“高级数据选项”中更新特征列并修改其他数据加载选项,但在本示例中不是必需的。

Model Builder 数据步骤

添加数据后,请转到“训练”步骤。

继续