参考书:《机器学习》by 周志华。学习笔记,仅供参考:)
机器学习术语
周老师在《机器学习》一书中的开始,解释了很多关于机器学习的术语。
数据集:dataset
一组数据记录就是一个数据集(dataset)。
示例:instance
数据集里的每一个记录就是一个示例(instance)。每条记录是关于一个事件或者对象的描述。示例也叫样本(sample)。
特征:feature
反映事件或对象在某方面的表现或性质的东西就是特征(feature)。也叫属性(attribute)。
属性空间:attribute space
属性张成的空间。也叫样本空间(sample space)或输入空间。
D = { x1, x2, ..., xm }
表示包含 m 个示例的数据集。
xi = (xi1; xi2; ...; xid )
表示每个示例有 d 个属性,每个示例是 d 维属性空间 X 里面的一个向量。xi ∈ X,其中 xij 是 xi 在第 j 个属性上的取值,d 称为样本 xi 的维数(dimensionality)。
学习或训练
用某种学习算法,从数据中学习得到模型的这个过程叫学习(learning)或训练(training)。训练的时候用的数据叫训练数据(training data),里面的每个样本都是一个训练样本(training sample),训练样式组成的集合叫训练集(training set)。
假设:hypothesis
学习得到模型,对应了关于数据里面的某种潜在的规律,所以叫假设(hypothesis)。这种潜在规律本身叫真相或真实(ground-truth),学习的过程就是为了得到真相,或者尽可能逼近真相。
标记:label
建立预测(prediction)模型,需要训练样本里带着 “结果” 信息(如:垃圾邮件,正常邮件),这种东西叫标记(label),有标记的示例叫样例(example)。(xi, yi) 表示第 i 个样例,这里 yi ∈ Y,是示例 xi 的标记,Y 是所有标记的集合,被称为标记空间(label space)或输出空间。
分类:classification
预测离散值的学习任务叫分类(classification)。要分的类只有两个,就是二分类(binary classification),一个正类(positive class),一个反类(negative class)。如果要分成多个类别,就是多分类(multi-class classification)任务。
回归:regression
预测连续值的学习任务就是回归(regression)。
预测:prediction
{(x1, y1), (x2, y2), ..., (xm, ym)} 表示一个训练集,预测任务就是通过对训练集进行学习,建立一个从输入空间 X 到输出空间 Y 的映身 f: X → Y。二分类 Y = {-1, +1} 或 Y = {0, 1},多分类任务 |Y| > 2,回归任务,Y = R,R 为实数集。
得到模型,用它预测的过程叫测试(testing),被预测的样式叫测试样式(testing sample)。得到 f,预测示例 x,得到预测标记 y = f(x) 。
聚类:clustering
对数据分组就是聚类(clustering),分成的每个组是一个簇(cluster)。簇是按某种东西自动形成的,可以帮我们了解数据内在的一些规律,也可以为深入分析数据打好基础。学习过程使用的训练样本一般没有标记。
监督与无监督学习:supervised learning & unsupervised learning
根据训练数据是否有标记(label)信息,机器学习可以分成两大类,监督学习(如分类,回归)与无监督学习(如聚类)。
泛化:generalization
模型适用于新样本的能力,叫泛化。
机器学习