朴素贝叶斯

约 1083 字大约 4 分钟

2025-05-28

步骤 1：分类问题概述

朴素贝叶斯是一种监督学习算法，主要用于分类任务。它基于贝叶斯定理，计算在给定特征下每个类别的概率，并选择后验概率最大的类别作为预测结果。

目标：给定特征和类别标签的数据集，预测新样本的类别，最大化后验概率。
关键假设：给定类别标签时，特征条件独立（即“朴素”假设）。
优势：计算高效、适用于高维数据、可扩展性强。
局限性：特征独立性假设在实际中可能不成立，特征高度相关时效果下降。

步骤 2：朴素贝叶斯模型

数据集定义：设 $X = \{x_1, x_2, \dots, x_n\}$ 为样本特征集合， $x_i \in \mathbb{R}^d$ ，对应类别 $y_i \in \{C_1, C_2, \dots, C_k\}$ 。
贝叶斯定理：
$P(C_k \mid x) = \frac{P(C_k) \cdot P(x \mid C_k)}{P(x)}$
其中：
- $P(C_k)$ ：类别 $C_k$ 的先验概率
- $P(x \mid C_k)$ ：给定类别的特征似然
- $P(x)$ ：归一化常数（可省略）
朴素假设：
特征条件独立：
$P(x \mid C_k) = \prod_{i=1}^d P(x_i \mid C_k)$
决策规则：
$\hat{y} = \arg\max_{C_k} P(C_k) \prod_{i=1}^d P(x_i \mid C_k)$
由于 $P(x)$ 对所有类别相同，可忽略不计。

常用似然模型：

高斯朴素贝叶斯（适用于连续特征）：
$P(x_i \mid C_k) = \frac{1}{\sqrt{2\pi \sigma_{k,i}^2}} \exp\left(-\frac{(x_i - \mu_{k,i})^2}{2\sigma_{k,i}^2}\right)$
多项式朴素贝叶斯（适用于词频等计数数据）：
$P(x_i \mid C_k) = \frac{x_i + \alpha}{\sum_j (x_j + \alpha)}$
伯努利朴素贝叶斯（适用于二值特征）：
$P(x_i \mid C_k) = P(x_i = 1 \mid C_k)^{x_i} \cdot (1 - P(x_i = 1 \mid C_k))^{1 - x_i}$

步骤 3：算法流程

步骤 3.1：训练阶段

估计先验概率：
$P(C_k) = \frac{\text{类别 } C_k \text{ 的样本数}}{\text{总样本数}}$
估计似然函数：
- 高斯模型下：计算每个特征在每个类别下的均值 $\mu_{k,i}$ 和方差 $\sigma_{k,i}^2$ 。
- 多项式/伯努利模型下：统计每个特征在各类别中的出现频率，并应用平滑（如 $\alpha = 1$ 的拉普拉斯平滑）。

步骤 3.2：预测阶段

计算后验概率并预测类别：
$\hat{y} = \arg\max_{C_k} P(C_k) \prod_{i=1}^d P(x_i \mid C_k)$
数值稳定性改进（对数形式）：
$\hat{y} = \arg\max_{C_k} \left[ \log P(C_k) + \sum_{i=1}^d \log P(x_i \mid C_k) \right]$

步骤 4：处理现实场景

拉普拉斯平滑（解决零概率问题）：
$P(x_i \mid C_k) = \frac{\text{特征 } x_i \text{ 在类别 } C_k \text{ 的计数} + \alpha}{\text{类别 } C_k \text{ 的总计数} + \alpha \cdot V}$
其中 $V$ 是特征可能的取值个数， $\alpha$ 通常取 1。
选择合适模型：
特征类型建议模型
连续特征高斯朴素贝叶斯
词频计数多项式朴素贝叶斯
是否出现伯努利朴素贝叶斯
处理特征相关性：
若特征间相关性强，建议使用特征选择或降维技术（如 PCA）降低冗余性。

步骤 5：优化与评估

参数优化：
- 平滑参数 $\alpha$ 可通过网格搜索或交叉验证调优。
- 特征选择（如基于信息增益、卡方检验）可提升模型性能。

模型评估指标：

指标	说明
准确率	正确分类样本占比
精确率	正确预测为正的样本占所有预测为正的比例
召回率	正确预测为正的样本占所有实际为正的比例
F1 分数	精确率与召回率的调和平均
ROC/AUC	用于衡量二分类器性能
混淆矩阵	分类结果的详细结构分析
交叉验证	如 K 折交叉验证，衡量模型泛化能力

实现建议：
- 仅高斯模型对特征缩放敏感，建议标准化。
- 使用 scikit-learn 可快速实现三种朴素贝叶斯模型：

提示

朴素贝叶斯适合高维稀疏数据，特别在文本分类中表现良好。但在特征高度相关场景下，可考虑使用逻辑回归、SVM 或集成方法替代。