🦄 2024 独立开发者训练营,一起创业!查看介绍 / 立即报名 →

机器学习:术语

参考书:《机器学习》by 周志华。学习笔记,仅供参考:)

机器学习术语

周老师在《机器学习》一书中的开始,解释了很多关于机器学习的术语。

数据集:dataset

一组数据记录就是一个数据集(dataset)。

示例:instance

数据集里的每一个记录就是一个示例(instance)。每条记录是关于一个事件或者对象的描述。示例也叫样本(sample)。

特征:feature

反映事件或对象在某方面的表现或性质的东西就是特征(feature)。也叫属性(attribute)。

属性空间:attribute space

属性张成的空间。也叫样本空间(sample space)或输入空间。

D = { x1, x2, ..., xm }

表示包含 m 个示例的数据集。

xi = (xi1; xi2; ...; xid )

表示每个示例有 d 个属性,每个示例是 d 维属性空间 X 里面的一个向量。xi ∈ X,其中 xijxi 在第 j 个属性上的取值,d 称为样本 xi 的维数(dimensionality)。

学习或训练

用某种学习算法,从数据中学习得到模型的这个过程叫学习(learning)或训练(training)。训练的时候用的数据叫训练数据(training data),里面的每个样本都是一个训练样本(training sample),训练样式组成的集合叫训练集(training set)。

假设:hypothesis

学习得到模型,对应了关于数据里面的某种潜在的规律,所以叫假设(hypothesis)。这种潜在规律本身叫真相或真实(ground-truth),学习的过程就是为了得到真相,或者尽可能逼近真相。

标记:label

建立预测(prediction)模型,需要训练样本里带着 “结果” 信息(如:垃圾邮件,正常邮件),这种东西叫标记(label),有标记的示例叫样例(example)。(xi, yi) 表示第 i 个样例,这里 yi ∈ Y,是示例 xi 的标记,Y 是所有标记的集合,被称为标记空间(label space)或输出空间。

分类:classification

预测离散值的学习任务叫分类(classification)。要分的类只有两个,就是二分类(binary classification),一个正类(positive class),一个反类(negative class)。如果要分成多个类别,就是多分类(multi-class classification)任务。

回归:regression

预测连续值的学习任务就是回归(regression)。

预测:prediction

{(x1, y1), (x2, y2), ..., (xm, ym)}  表示一个训练集,预测任务就是通过对训练集进行学习,建立一个从输入空间 X 到输出空间 Y 的映身 f: X → Y。二分类 Y = {-1, +1}Y = {0, 1},多分类任务 |Y| > 2,回归任务,Y = R,R 为实数集。

得到模型,用它预测的过程叫测试(testing),被预测的样式叫测试样式(testing sample)。得到 f,预测示例 x,得到预测标记 y = f(x) 。

聚类:clustering

对数据分组就是聚类(clustering),分成的每个组是一个簇(cluster)。簇是按某种东西自动形成的,可以帮我们了解数据内在的一些规律,也可以为深入分析数据打好基础。学习过程使用的训练样本一般没有标记。

监督与无监督学习:supervised learning & unsupervised learning

根据训练数据是否有标记(label)信息,机器学习可以分成两大类,监督学习(如分类,回归)与无监督学习(如聚类)。

泛化:generalization

模型适用于新样本的能力,叫泛化。

机器学习
微信好友

用微信扫描二维码,
加我好友。

微信公众号

用微信扫描二维码,
订阅宁皓网公众号。

240746680

用 QQ 扫描二维码,
加入宁皓网 QQ 群。

统计

14696
分钟
0
你学会了
0%
完成

社会化网络

关于

微信订阅号

扫描微信二维码关注宁皓网,每天进步一点