CMSC 5724 Data Mining and Knowledge Discovery - Lecture 04

  • Linear classification
  • Perceptron
  • Theorem
  • Proof

Linear classification

训练集 S 是线性可分离的,那么就存在一个 d 维的向量 w,x · w > 0 表示 label 1,x · w < 1 表示 label 2,x · w = 0 是 S 的分割平面。

God :

  • 选择了一个 linear classifier h*
  • 选择了一个 X 上的数据集 D

我们:

  • 从 D 中取一些样本集

  • 从 D 取 x

  • y = h*(x)

    那么 God 会返回 (x, y)

errD(h) = Pr[h(x) ≠ h*(x)]

Note: errD(h*) = 0

linear classification 的目标是训练集中学习一个 classifier h,它在 D 上的错误尽可能小

Perceptron

问题:给定一个线性分割的数据集 S,找一个分割平面,该分割平面由权重向量 w 定义,给定一个 linear classifier h,并且 errS(h) = 0。

引理:S (有限的)一定包含一个分割平面。

该算法从 w = (0, 0, … , 0) 开始,以迭代的方式进行。在每次迭代中,寻找一个 violation point p ∈ S

  • 如果 p 为 label 1,那么如果 w · p ≤ 0,p 是一个 violation point
  • 如果 p 为 label -1,那么如果 w · p ≥ 0,p 是一个 violation point

如果 p 存在,算法会按如下方式调整 w

  • 如果 p 是 label 1,那么 w = w + p
  • 如果 p 是 label -1,那么 w = w - p

当没有 violation point 的时候,算法会停止

现在我们分析 Perceptron 的迭代次数,给定一个向量 v = (v1, … , vd),我们定义它的长度为

对于任意 v1,v2,有

定义一个单位向量 u,|u| = 1。

可见 p · u 为 p 距离分割平面的距离。

定义:

S :样本集

π*:有最大边界的分割平面

γ:π* 的边界

u*:π* 的法向

R:S 的半径,也就是距离分割平面最远的点的距离

w0 = 0

wi:第 i 次调整以后的 w

分割平面的边界由 w 决定

Theorem

Perceptron 会在 w 最多 (R / γ)² 次调整后停止。

Proof

证明最终结论

我们先假定下面两个引理是正确的,后面再证明

我们令 k 为最大调整次数,由引理1我们可以得到,

由引理2我们可以得到,

于是可以推得,

证明引理1

证明引理2

评论