1. 基本术语

  • 数据集(dataset):一组数据记录的集合
  • 示例(instance) / 样本(sample):关于一个事件或对象的描述
  • 属性(attribute) / 特征(feature):反映事件或对象在某方面的表现或性质
  • 维数(dimensionality):样本的属性个数
  • 学习(learn) / 训练(train):从数据中学得模型的过程
  • 假设(hypothesis):模型对应的关于数据的某种潜在规律
  • 真相(ground-truth):实际的潜在规律
  • 预测(prediction):模型关于示例的结果
  • 标记(label):示例的实际结果
  • 样例(example):具有标记的示例
  • 分类(classification):预测的是离散值
  • 回归(regression):预测的是连续值
  • 二分类(binary classification):只分为正类和负类,通常为{0,1}或{-1,1}
  • 聚类(clustering):将样本分为若干个簇
  • 有监督学习(supervised)和无监督学习(unsupervised):取决于训练数据集是否具有标记
  • 泛化(generalization):模型适用于新样本的能力
  • 独立同分布(independent and identically distributed):样本空间中的样本关系
  • 归纳(induction) / 泛化(generalization):从具体的事实归结出一般性规律
  • 演绎(deduction) / 特化(specialization):从基础原理推演出具体状况

2. 版本空间

  • 假设空间的计算:若样本具有n个属性,且每个属性值都具有m个取值,则样本空间规模大小为 (m+1)^n^ + 1

    • m+1:取值不影响结果,相当于属性值+1,用通配符 * 表示
    • +1:不存在结果,相当于假设+1,用空集 ∅ 表示
  • 版本空间(version space):所有符合训练数据集的假设的集合

    • 理解:版本空间是训练数据集中正类的完整泛化表示,即不包含任一负类且包含任一正类
    • 图解:GB是最大泛化正假设边界,SB是最大精确正假设边界,GB与SB之间所围成的区域就是版本空间
    • 版本空间的大小取决于训练数据的质量和数量

例子:假设西瓜的色泽2种,根蒂3种,敲声3种

搜索过程:不断删除与正例不一致或与反例一致的假设

最终结果:

3. 归纳偏好

  • 偏好(bias):在学习过程模型更加偏向于对某种类型的假设
  • 奥卡姆剃刀(Occam’s razor):若有多个假设与观察一致,则选择最简单的那个
  • 没有免费的午餐定理(No Free Lunch,NFL):总误差与学习算法无关
    • 说明:对于学习算法a,若它在某些问题上比学习算法b好,则必然存在另一些问题,在那里b要比a好
    • 前提:所有问题同等重要,所有假设均匀分布
    • 寓意:脱离具体问题谈算法好坏是毫无意义的

4. 发展历程

时期核心技术
二十世纪八十年代符号主义决策树(decision tree)和归纳逻辑程序设计(Inductive Logic Programming,ILP)
二十世纪九十年代初期连接主义感知机(Perceptron)
二十世纪九十年代中期统计学习支持向量机(Support Vector Machine,SVM)和核方法(kernel methods)
二十一世纪初期深度学习神经网络(neural network)
当前迁移学习、类比学习、集成学习随机森林(Random Forest),梯度提升机(Gradient Boosting Machine,GBM)