一、em算法EM算法与先前讨论的K中心点、GMM等方法均涉及E-step和M-step的概念。EM算法的核心在于解决给定数据点集X和未知参数θ的模型时如何通过最大似然估计求解参数θ的问题。1.em算法概要核心问题通过最大似然估计求解模型参数θ但直接求解困难因此引入隐变量Z例如GMM中Z表示数据点所属类别的概率。E-step固定参数θ计算隐变量Z的后验概率如GMM中的γ值。M-step构造Q函数对数似然函数关于Z的期望通过优化Q函数间接优化原始目标函数。迭代过程更新参数θ后重复E-step和M-step直至收敛。需注意Q函数并非直接等于目标函数但EM算法证明了其优化等价性。2.em算法推导GMM联合概率分布GMM的联合概率可分解为P(X,Z)P(Z)P(X|Z)其中P(Z)为高斯权重P(X|Z)为高斯分布。Q函数构造对数联合概率的期望通过隐变量Z的后验概率γ值计算最终形式与GMM直接推导结果一致。参数更新通过优化Q函数得到的μ、σ、π更新公式与直接最大似然估计结果相同验证了EM算法的有效性。3.k-means与GMM、EM的关系对比维度K-meansGMM分配方式硬分配0或1软分配概率值方差假设各向同性且趋近于0可自由建模损失函数最小化距离平方和最大化Q函数对数似然期望特例关系当GMM的方差趋近于0时后验概率γ退化为K-means的硬分配指标rₙₖ且损失函数形式一致。结论K-means是GMM在方差为0且硬分配条件下的特例。4.内容总结EM算法是通用优化方法用于估计模型参数θ以优化函数p(X|θ)通过引入隐变量Z辅助最大化似然函数MLE。GMM是基于线性高斯模型组合的EM算法应用需通过数据点求解μ、σ和π三个未知参数进而计算后验概率γ。K-means是GMM的特例后验概率γ退化为硬分配0或1假设高斯模型方差为零且各方向一致球形聚类。层级关系EM最宽泛→ GMM → K-means。二、k-means算法总结复杂度O(T×K×N×D)其中T为迭代次数K为类别数N为数据点数D为维度。优点简单直观无需复杂数学原理计算效率高流程简洁。缺点基于欧式距离假设各类为球形分布方差均等需预设K值依赖经验或先验信息对初始化和噪声敏感可通过K-medoids缓解噪声问题。三、gmm算法总结复杂度与K-means相同O(T×K×N×D)核心差异在于E-step计算后验概率、M-step更新高斯参数。优点软分配提供点属于各类的概率对噪声鲁棒性更强。缺点需预设K值假设数据为椭圆分布高斯模型非椭圆数据拟合效果差MLE可能引发奇异性问题方差为零需工程化处理如条件判断。四、聚类算法对比算法适用场景局限性典型失败案例K-means球形分布数据仅支持球形聚类同心圆、月牙形数据GMM椭圆分布数据无法处理非高斯分布同心圆、复杂拓扑结构谱聚类非凸/复杂结构数据计算复杂度较高无图示中六类数据均成功DBSCAN噪声数据、密度不均数据需调参如邻域半径部分簇识别不全图示第三行关键结论谱聚类与DBSCAN在非球形/非椭圆数据中表现最优后续课程将深入讲解。