机器学习：术语

参考书：《机器学习》by 周志华。学习笔记，仅供参考：）

机器学习术语

周老师在《机器学习》一书中的开始，解释了很多关于机器学习的术语。

数据集：dataset

一组数据记录就是一个数据集（dataset）。

示例：instance

数据集里的每一个记录就是一个示例（instance）。每条记录是关于一个事件或者对象的描述。示例也叫样本（sample）。

特征：feature

反映事件或对象在某方面的表现或性质的东西就是特征（feature）。也叫属性（attribute）。

属性空间：attribute space

属性张成的空间。也叫样本空间（sample space）或输入空间。

D = { x₁, x₂, ..., x_m }

表示包含 m 个示例的数据集。

x_i = (x_i1; x_i2; ...; x_id )

表示每个示例有 d 个属性，每个示例是 d 维属性空间 X 里面的一个向量。x_i ∈ X，其中 x_ij 是 x_i 在第 j 个属性上的取值，d 称为样本 x_i 的维数（dimensionality）。

学习或训练

用某种学习算法，从数据中学习得到模型的这个过程叫学习（learning）或训练（training）。训练的时候用的数据叫训练数据（training data），里面的每个样本都是一个训练样本（training sample），训练样式组成的集合叫训练集（training set）。

假设：hypothesis

学习得到模型，对应了关于数据里面的某种潜在的规律，所以叫假设（hypothesis）。这种潜在规律本身叫真相或真实（ground-truth），学习的过程就是为了得到真相，或者尽可能逼近真相。

标记：label

建立预测（prediction）模型，需要训练样本里带着 “结果” 信息（如：垃圾邮件，正常邮件），这种东西叫标记（label），有标记的示例叫样例（example）。(x_i, y_i) 表示第 i 个样例，这里 y_i ∈ Y，是示例 x_i 的标记，Y 是所有标记的集合，被称为标记空间（label space）或输出空间。

分类：classification

预测离散值的学习任务叫分类（classification）。要分的类只有两个，就是二分类（binary classification），一个正类（positive class），一个反类（negative class）。如果要分成多个类别，就是多分类（multi-class classification）任务。

回归：regression

预测连续值的学习任务就是回归（regression）。

预测：prediction

{(x₁, y₁), (x₂, y₂), ..., (x_m, y_m)} 表示一个训练集，预测任务就是通过对训练集进行学习，建立一个从输入空间 X 到输出空间 Y 的映身 f: X → Y。二分类 Y = {-1, +1} 或 Y = {0, 1}，多分类任务 |Y| > 2，回归任务，Y = R，R 为实数集。

得到模型，用它预测的过程叫测试（testing），被预测的样式叫测试样式（testing sample）。得到 f，预测示例 x，得到预测标记 y = f(x) 。

聚类：clustering

对数据分组就是聚类（clustering），分成的每个组是一个簇（cluster）。簇是按某种东西自动形成的，可以帮我们了解数据内在的一些规律，也可以为深入分析数据打好基础。学习过程使用的训练样本一般没有标记。

监督与无监督学习：supervised learning & unsupervised learning

根据训练数据是否有标记（label）信息，机器学习可以分成两大类，监督学习（如分类，回归）与无监督学习（如聚类）。

泛化：generalization

模型适用于新样本的能力，叫泛化。

机器学习

机器学习：术语