2020-09-17课程笔记3 分钟读完 (大约 495 个字) 0次访问

CMSC 5724 Data Mining and Knowledge Discovery - Lecture 02

Bayesian Classification
Naive Bayes Classification

Bayesian Classification

我们给定一个在实例空间的点 p ，即 p ∈ X。如果 Pr[y = -1 | x = p] ≥ Pr[y = 1 | x = p]，那么上帝的分类器（最准确的分类器）hgod(p) = -1，反之则 = 1。（这里的Pr[y = -1 | x = p]，右上角举例，先限定 x 是年龄为30，学历为 undergraduate，再看标签为 -1 的比例）。但是即便是最准确的分类器，也是有误差的，我们称为 err_D(hgod)，也叫贝叶斯误差。

当每个属性都有一个较小的域时，即该属性只有少量可能的值时，贝叶斯分类最有效。当属性具有较大的域时，我们可以通过离散化来减小其域大小。比如之前的例子，我们可以让年龄划分为更小的域，{20 +，30 +，40 +，50 +}，其中“ 20+”对应于区间 [20、29]，“ 30+”至[30、39]，并且以此类推。