AI入门实战：用Scikit-learn快速实现3个基础项目（新手可直接上手）

张

张建站

2026/4/25 9:47:37

10分钟阅读

前言很多新手入门AI光看理论不实战导致“一看就懂一做就废”——知道线性回归、决策树是什么却不知道怎么用代码实现遇到问题无从下手。其实AI入门的核心是“实战”只有多动手写代码、做项目才能真正掌握知识点。今天分享3个新手入门必做的基础项目用Scikit-learn实现步骤清晰代码可直接复制运行帮你快速迈出AI实战第一步核心前提已安装Python和Scikit-learn、NumPy、Pandas、Matplotlib库安装命令pip install scikit-learn numpy pandas matplotlib如果还没安装先执行安装命令再开始实战。项目1线性回归预测房价—— 入门最基础必做项目目标根据房屋面积预测房屋价格掌握线性回归的基本用法理解“预测类任务”的核心流程。完整代码复制可直接运行完整代码复制可直接运行# 1. 准备数据模拟房屋面积与房价的关系 data pd.DataFrame({ 面积: [50, 60, 70, 80, 90, 100, 110, 120], 房价: [100, 120, 145, 160, 185, 200, 220, 240] })# 2. 划分输入特征X和目标变量y X data[[面积]] y data[房价]# 3. 划分训练集80%和测试集20% X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)# 4. 初始化并训练模型 model LinearRegression() model.fit(X_train, y_train)import numpy as np import pandas as pd from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt# 6. 可视化结果直观查看预测值与真实值的差距 plt.scatter(X, y, colorblue, label真实数据) plt.plot(X, model.predict(X), colorred, label预测线) plt.xlabel(房屋面积㎡) plt.ylabel(房价万元) plt.legend() plt.show()项目2逻辑回归垃圾邮件识别—— 分类任务入门# 5. 预测并评估模型 y_pred model.predict(X_test) print(测试集房价预测结果, y_pred) print(模型准确率R², model.score(X_test, y_test)) # R²越接近1模型效果越好完整代码复制可直接运行项目目标根据邮件内容判断邮件是否为垃圾邮件掌握逻辑回归的基本用法理解“分类类任务”的核心流程。# 1. 准备数据模拟邮件内容和标签1垃圾邮件0正常邮件 emails [ 免费领取礼品点击链接立即领取, 您好请问您需要咨询产品吗, 恭喜您中了一等奖点击领取奖金, 明天上午10点开会请准时参加, 低价出售手机正品保障先到先得, 您的快递已送达请及时取件, 刷单赚钱日入上千无门槛, 请查收本月工资明细 ] labels [1, 0, 1, 0, 1, 0, 1, 0]# 2. 将文本转换为可处理的特征文本不能直接输入模型需转换为数值 vectorizer CountVectorizer() X vectorizer.fit_transform(emails)# 3. 划分训练集和测试集 X_train, X_test, y_train, y_test train_test_split(X, labels, test_size0.25, random_state42)# 4. 训练逻辑回归模型 model LogisticRegression() model.fit(X_train, y_train)from sklearn.linear_model import LogisticRegression from sklearn.feature_extraction.text import CountVectorizer from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score# 6. 测试新邮件 new_email [免费领取手机点击链接] new_email_feature vectorizer.transform(new_email) print(新邮件预测结果, model.predict(new_email_feature))项目3K-means聚类用户分群—— 无监督学习入门# 5. 预测并评估模型 y_pred model.predict(X_test) accuracy accuracy_score(y_test, y_pred) print(模型准确率, accuracy) print(预测结果1垃圾邮件0正常邮件, y_pred)完整代码复制可直接运行项目目标根据用户的消费金额和消费频率对用户进行分群掌握K-means聚类的基本用法理解无监督学习的核心流程。import numpy as np import pandas as pd from sklearn.cluster import KMeans import matplotlib.pyplot as plt# 2. 初始化K-means模型将用户分为3类 kmeans KMeans(n_clusters3, random_state42)# 3. 训练模型并给用户分配聚类标签 data[用户类别] kmeans.fit_predict(data[[消费金额元, 消费频率次/月]])# 4. 可视化聚类结果 plt.scatter(data[data[用户类别]0][消费金额元], data[data[用户类别]0][消费频率次/月], colorred, label类别1低消费低频率) plt.scatter(data[data[用户类别]1][消费金额元], data[data[用户类别]1][消费频率次/月], colorblue, label类别2中消费中频率) plt.scatter(data[data[用户类别]2][消费金额元], data[data[用户类别]2][消费频率次/月], colorgreen, label类别3高消费高频率) plt.xlabel(消费金额元) plt.ylabel(消费频率次/月) plt.legend() plt.show()# 5. 查看聚类结果 print(用户分群结果) print(data)# 1. 准备数据模拟用户消费数据消费金额、消费频率 data pd.DataFrame({ 消费金额元: [100, 200, 50, 300, 400, 60, 80, 350, 450, 70], 消费频率次/月: [2, 3, 1, 4, 5, 1, 2, 4, 5, 1] })新手实战提醒2. 遇到报错先看报错信息大部分是库未安装或语法拼写错误CSDN搜索报错信息就能找到解决方案3. 这3个项目是AI入门的基础掌握后就能轻松理解更复杂的AI项目后续可以尝试修改数据、优化模型提升实战能力。