type
status
slug
summary
tags
category
password
date
icon
- 标签
- 标签是指我们要预测的内容,即简单线性回归中的
y
变量。标签可以是小麦的未来价格、图片中显示的动物类型、音频剪辑的含义,也可以是其他任何信息。
- 特征
- 特征是输入变量,即简单线性回归中的
x
变量。一个简单的机器学习项目可能会使用单个功能,而更复杂的机器学习项目可以使用数百万个功能, - 电子邮件文字中的字词
- 发件人的地址
- 发送电子邮件的时间
- 电子邮件中包含词组“一种奇怪的技巧”。
在垃圾邮件检测器示例中,这些功能可能包括:
- 样本
- 有标签样本
- 使用有标签样本来训练模型。在我们的垃圾邮件检测器示例中,有标签样本是指用户明确标记为“垃圾邮件”或“不是垃圾邮件”的个别电子邮件。
- 下面是有标签样本的示例:
- 无标签样本
- 无标签样本包含特征,但不包含标签。具体来说:
- 使用有标签样本训练模型后,我们便会使用该模型来预测无标签样本的标签。在垃圾邮件检测器中,无标签样本是用户尚未添加标签的新电子邮件。
样本是指数据的特定实例:x。(我们将 x 显示为粗体,表示它是一个矢量。)我们将示例分为两类:
- 模型
- 模型定义了特征和标签之间的关系。例如,垃圾内容检测模型可能会将某些功能与“垃圾内容”紧密关联。我们重点介绍模型生命周期的两个阶段:
- 训练是指创建或学习模型。也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。
- 推断表示将经过训练的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测 (
y'
)。例如,在推理期间,您可以针对新的无标签样本预测medianHouseValue
。
- 回归与分类
- 加利福尼亚州一栋房子的价值是多少?
- 用户点击此广告的可能性有多大?
- 指定的电子邮件是垃圾邮件还是非垃圾邮件?
- 这是狗、猫还是仓鼠的图片?
回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:
分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:
机器学习系统学习如何组合输入以对从未见过的数据生成有用的预测。
- 训练
- 训练模型只需从有标签样本中学习(确定)所有权重和偏差的理想值。在监督式学习中,机器学习算法通过检查许多示例并尝试找到将损失降至最低的模型来构建模型;此过程称为经验风险最小化。
- 损失
- 损失是错误预测的惩罚。也就是说,损失是一个表示模型在单个样本上的预测质量的数字。如果模型的预测完全准确,则损失为零,否则损失会更大。训练模型的目的是从所有样本中找到一组平均损失“较小”的权重和偏差。例如,图 3 左侧显示的是高损失模型,右侧显示的是低损失模型。对于该图,请注意以下几点:
- 平方损失函数
- 单个样本的平方损失如下:
- 均方误差 (MSE) 是指整个数据集中每个样本的平均平方损失。如需计算 MSE,请先计算各个样本的所有平方损失之和,然后除以样本数量:
左图的损失比较高,右图的损失比较低
- training a model on labeled data
- use the trained model to predict the new dataset
- variable|feature
- 作者:fufu酱
- 链接:https://csfufu.life/article/d5eb6aa2-3c09-406c-99c8-20483e34b155
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。