2020-10-17课程笔记5 分钟读完 (大约 793 个字) 0次访问

CMSC 5724 Data Mining and Knowledge Discovery - Lecture 05

Review
VC-dimension
VC-dimension of Extended Linear Classifies
VC-Based Generalization Theorem

Review

Classification

第一节课的Generalization Theorem

这里的 H 为 classifier 的总数，那么如果 H 趋于无限呢？那么就需要 Linear classification

Linear Classification

我们可以看出来第一节课讲的 Generalization Theorem 受限于需要知道 H 的大小，那么要如何摆脱，就需要 VC-dimension

VC-dimension

我们定义

Example

在二维空间内，对3个点的分割方式如下

Definition

这里就可以引出 VC-dimension 的定义

对于一个假设空间 H，如果存在 m 个数据样本能够被假设空间H中的函数按所有可能的 2^h 种形式分开，则称假设空间 H 能够把 m 个数据样本打散（shatter）。

假设空间 H 的 VC-dimension 就是能打散的最大数据样本数目 m。

若对任意数目的数据样本都有函数能将它们 shatter，则假设空间 H 的 VC-dimension 为无穷大。

在二维空间的4个点中，因为4个点的情况下不能做到对分，所以二维实平面上所有线性划分构成的假设空间 H 的 VC-dimension 为3。

课上对 VC-dimension 的定义为

令 P 为 X 的子集。H 在 P 上的 VC-dimension 是可以被 H shatter 的最大子集 P’⊆P 的大小。

如果 VC-dimension 是 λ，我们写作 VC-dim(P, H) = λ。

VC-dimension of Extended Linear Classifies

Theorem

令 H 为 extended linear classifies 的集合，则 VC-dim(R^d, H) = d + 1

Example

VC-Based Generalization Theorem

Support set of D

D 的 support set 是在 d 维实数集上，从 D 中取出的有正概率（概率密度函数pdf > 0）的集合。

Theorem

该理论对 H 的大小没有限制

如果一组 classifiers 是更强大的，即具有更大的 VC dimension，则学习起来会更加困难，因为需要更大的训练集。

对于 (extended) linear classifiers 的集合 H，训练集大小需要为 Ω(d) 以确保较小的 generalization error。当 d 大时，这就会成为问题。实际上，在某些情况下，我们甚至可能希望使用 d = 无限。

Recall Linear classifier

令 h 为由 d 维向量 w 定义的 linear classifier，我们说对于每个 p ∈ S，h 是 canonical，canonical 解释如下

w‘ 就是 h 的 canonical 形式，canonical h 是一个由 w 描述的 classifier，它需要满足以下几点

Margin-Based Generalization Theorem

δ 满足 0 ＜ δ ≤ 1，对于每个用 w 描述的 canonical h

（这里没有 err_S(h)，因为它总是为0）

这个 theorem 不依赖于维度 d

这个 theorem 为什么是 margin-based的？

由 w 定义的分割平面的 margin 等于 1/|w|（后面课程会得出）。

Question

怎么样算是被 shatter？能够被划分开？
为什么需要这两个 generalization theorem？

用基于VC-dimension 来限定 generalization error，所以任何分割平面都有很小的 generalization error
definition plane 不够好，所以需要第二个theorem。第二个 theorem 表示，如果能够增加 margin，可以更好地限制 generalization error。

#数据挖掘与知识发现

评论