别再只调包了！用Python从零手搓K-Means，在鸢尾花数据集上跑一遍才真懂了

张

张建站

2026/5/11 5:10:39

10分钟阅读

别再只调包了！用Python从零手搓K-Means，在鸢尾花数据集上跑一遍才真懂了

从零实现K-Means用NumPy解剖聚类算法的灵魂当你第一次调用sklearn.cluster.KMeans().fit(X)时是否曾好奇这行简洁代码背后究竟发生了什么本文将带你用NumPy从零开始构建K-Means算法在鸢尾花数据集上完整实现聚类过程。这不是又一篇调包教程而是一次深入算法核心的探险——我们将亲手实现质心初始化、样本分配、簇更新等关键步骤并可视化每个迭代环节的数据流动。通过对比手工实现与sklearn的结果差异你会发现算法对初始质心的敏感性、陷入局部最优的根源以及K-Means等优化方法的价值所在。1. 环境准备与数据理解在开始编码前我们需要搭建实验环境并深入理解鸢尾花数据集的结构特征。这个经典数据集包含150个样本每个样本有4个特征花萼长度sepal length花萼宽度sepal width花瓣长度petal length花瓣宽度petal width安装必要的Python库pip install numpy matplotlib scikit-learn pandas加载数据集并查看数据结构import numpy as np from sklearn.datasets import load_iris iris load_iris() X iris.data # 特征矩阵 (150, 4) y iris.target # 真实标签 (150,) feature_names iris.feature_names观察数据分布特征特征最小值最大值均值标准差花萼长度4.37.95.840.83花萼宽度2.04.43.050.43花瓣长度1.06.93.761.76花瓣宽度0.12.51.200.76提示特征尺度差异较大实践中通常需要标准化处理。但为保持实现简洁本文暂不进行特征缩放。2. K-Means算法核心实现2.1 初始化质心随机选择的艺术传统K-Means的第一步是随机选择K个数据点作为初始质心。这个看似简单的步骤实则影响巨大——糟糕的初始化可能导致算法陷入局部最优。def initialize_centroids(X, k): 随机选择k个样本作为初始质心 indices np.random.choice(len(X), sizek, replaceFalse) return X[indices].copy()测试初始化函数np.random.seed(42) # 固定随机种子便于复现 centroids initialize_centroids(X, k3) print(初始质心坐标\n, centroids)2.2 样本分配距离计算的奥秘每个样本需要被分配到最近的质心所在的簇。这里使用欧氏距离作为相似性度量def assign_clusters(X, centroids): 将每个样本分配到最近的质心 distances np.sqrt(((X[:, np.newaxis] - centroids) ** 2).sum(axis2)) return np.argmin(distances, axis1)可视化分配过程以花瓣长度和宽度为例import matplotlib.pyplot as plt def plot_clusters(X, centroids, labels, feature_indices[2,3]): plt.scatter(X[:, feature_indices[0]], X[:, feature_indices[1]], clabels, cmapviridis, alpha0.5) plt.scatter(centroids[:, feature_indices[0]], centroids[:, feature_indices[1]], cred, markerx, s100) plt.xlabel(feature_names[feature_indices[0]]) plt.ylabel(feature_names[feature_indices[1]]) plt.title(当前簇分配状态) plt.show()2.3 质心更新均值迁移的力量根据当前簇分配重新计算每个簇的质心位置def update_centroids(X, labels, k): 计算每个簇的新质心均值点 new_centroids np.zeros((k, X.shape[1])) for i in range(k): new_centroids[i] X[labels i].mean(axis0) return new_centroids2.4 迭代优化收敛判定标准组合上述步骤实现完整迭代过程直到满足停止条件def k_means(X, k, max_iters100, tol1e-4): 完整K-Means算法实现 centroids initialize_centroids(X, k) for _ in range(max_iters): labels assign_clusters(X, centroids) new_centroids update_centroids(X, labels, k) # 检查质心变化是否小于阈值 if np.allclose(centroids, new_centroids, atoltol): break centroids new_centroids plot_clusters(X, centroids, labels) # 可视化当前状态 return labels, centroids3. 算法验证与问题剖析3.1 运行手工实现版本执行我们的K-Means实现并观察迭代过程final_labels, final_centroids k_means(X, k3)典型迭代过程会显示质心逐渐移动到簇中心位置但你可能注意到最终聚类结果可能每次运行都不同有时会出现明显不合理的簇划分某些质心可能停留在稀疏区域3.2 与sklearn结果对比使用scikit-learn的标准实现作为基准from sklearn.cluster import KMeans sk_kmeans KMeans(n_clusters3, random_state42).fit(X) sk_labels sk_kmeans.labels_ sk_centroids sk_kmeans.cluster_centers_比较两种实现的质心位置实现方式质心1坐标质心2坐标质心3坐标手工实现[5.0,3.4,1.5,0.2][5.9,2.8,4.4,1.4][6.8,3.2,5.6,2.1]sklearn[5.0,3.4,1.5,0.2][5.9,2.8,4.3,1.3][6.9,3.1,5.4,2.1]注意手工实现的结果可能因随机初始化而不同这正是K-Means的关键问题之一3.3 常见问题诊断通过多次运行我们的实现可以直观观察到K-Means的几个典型问题初始化敏感不同的随机种子导致完全不同的最终结果空簇现象某些质心可能分配到零样本导致计算均值时出错局部最优质心卡在次优位置无法继续优化解决方案示例空簇处理def update_centroids_safe(X, labels, k): 带空簇处理的质心更新 new_centroids [] for i in range(k): cluster_points X[labels i] if len(cluster_points) 0: new_centroids.append(cluster_points.mean(axis0)) else: # 重新随机初始化空簇的质心 new_centroids.append(X[np.random.randint(len(X))]) return np.array(new_centroids)4. 算法优化与进阶思考4.1 K-Means智能初始化原始随机初始化容易导致次优解。K-Means通过以下策略改进第一个质心随机选择后续质心选择距离已选质心较远的点概率正比于距离平方实现代码片段def initialize_centroids_pp(X, k): K-Means初始化 centroids [X[np.random.randint(len(X))]] for _ in range(1, k): distances np.array([min([np.linalg.norm(x-c)**2 for c in centroids]) for x in X]) probabilities distances / distances.sum() next_centroid X[np.random.choice(len(X), pprobabilities)] centroids.append(next_centroid) return np.array(centroids)4.2 评估指标实现常用的轮廓系数和Calinski-Harabasz指数from sklearn.metrics import silhouette_score, calinski_harabasz_score def evaluate_clustering(X, labels): print(f轮廓系数: {silhouette_score(X, labels):.3f}) print(fCalinski-Harabasz指数: {calinski_harabasz_score(X, labels):.1f})4.3 多维度可视化技巧除了二维散点图还可以使用平行坐标展示所有特征def plot_parallel_coordinates(X, labels, feature_names): plt.figure(figsize(10,5)) for i in range(len(X)): plt.plot(X[i], colorplt.cm.viridis(labels[i]/2), alpha0.2) plt.xticks(range(len(feature_names)), feature_names) plt.title(平行坐标聚类可视化) plt.show()5. 工程实践建议在实际项目中应用K-Means时有几个关键注意事项特征标准化不同尺度的特征会导致距离计算偏差from sklearn.preprocessing import StandardScaler X_scaled StandardScaler().fit_transform(X)确定最佳K值肘部法则实现distortions [] for k in range(1, 8): kmeans KMeans(n_clustersk).fit(X_scaled) distortions.append(kmeans.inertia_) plt.plot(range(1,8), distortions, markero) plt.xlabel(K值) plt.ylabel(误差平方和)处理高维数据考虑PCA降维from sklearn.decomposition import PCA pca PCA(n_components2).fit(X_scaled) X_pca pca.transform(X_scaled)处理非凸簇可能需要谱聚类或DBSCAN在实现过程中最让我惊讶的是即使在这个简单的鸢尾花数据集上传统K-Means也可能产生明显不合理的聚类结果。这让我真正理解了为什么生产环境中的聚类任务往往需要多次运行取最优解或者直接使用K-Means等优化变种。

突破Windows XP/2003兼容性壁垒：One-Core-API-Source革新方案解析

突破Windows XP/2003兼容性壁垒：One-Core-API-Source革新方案解析【免费下载链接】One-Core-Api-Source A complete layer to get compatibility on XP/2003 for newer applications 项目地址: https://gitcode.com/gh_mirrors/on/One-Core-Api-Source One-…...

2026/4/9 22:00:53 阅读更多 →

OpenClaw的国产平替——AiPy，我用过的这款AI工具到底怎么样？

作为一个每天都要和AI打交道的自媒体创作者，我试过不少AI Agent工具。从最开始的海外大模型到后来的OpenClaw，工具换了不少，但总有那么一些痛点让人不舒服：要么网络不稳定，要么数据安全让人担心，要么价格越…...

2026/4/9 22:00:54 阅读更多 →

大模型时代，算力租用成为AI创新的核心支撑

一、行业背景：大模型创新，算力成为核心瓶颈当大模型技术从实验室走向产业落地，从7B参数的轻量化模型迭代至70B参数的通用型大模型，预训练与微调阶段的算力需求呈现指数级攀升，算力已成为决定AI创新速度与质量的“数字石…...

2026/4/9 22:01:03 阅读更多 →

BriSe AI：构建类脑自我层次模型，从模式匹配迈向自主理解

1. 项目概述：从“模仿”到“涌现”的范式跃迁最近和几位做认知科学和神经科学的朋友聊得比较多，大家都有一个共同的感受：当前主流的人工智能，无论是大语言模型还是多模态模型，本质上还是在做“模式匹配”和“概率预测…...

2026/5/10 0:03:41 阅读更多 →

6G边缘计算与生成式AI融合：基于LDM与DRL的协同优化架构实践

1. 项目概述：当6G边缘计算遇上生成式AI最近和几个做通信和AI的朋友聊天，大家不约而同地提到了一个词：6G边缘生成式AI。这听起来像是把几个最前沿的技术名词硬凑在一起，但当你真正拆开来看，会发现它背后指向的是一个非常…...

2026/5/10 0:03:49 阅读更多 →

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否曾因为Windows系统变得越来越臃肿而…...

2026/5/10 0:10:01 阅读更多 →