用Python和SVD矩阵分解，从零搭建一个能跑的音乐推荐系统（附完整数据集和源码）

张

张建站

2026/5/28 3:38:28

10分钟阅读

用Python和SVD矩阵分解，从零搭建一个能跑的音乐推荐系统（附完整数据集和源码）

用Python和SVD矩阵分解构建音乐推荐系统的工程实践1. 理解推荐系统的基本原理音乐推荐系统本质上是一个信息过滤系统它通过分析用户的历史行为数据来预测用户可能感兴趣的音乐内容。在推荐系统领域矩阵分解技术因其高效性和可扩展性而广受欢迎。推荐系统主要分为三种类型基于内容的推荐分析音乐本身的特征如流派、节奏、歌词等协同过滤基于用户群体的行为模式进行推荐混合推荐结合上述两种方法SVD奇异值分解属于协同过滤的一种实现方式它能够将用户-音乐评分矩阵分解为三个低维矩阵的乘积从而发现潜在的用户偏好和音乐特征。2. 数据准备与预处理2.1 数据集选择与加载我们使用Million Song Dataset的子集作为示例数据这个数据集包含用户对歌曲的播放记录。首先加载数据import pandas as pd import numpy as np # 加载用户-歌曲-播放次数数据 triplet_dataset pd.read_csv(train_triplets.txt, sep\t, headerNone, names[user,song,play_count])2.2 数据清洗与特征工程原始数据通常包含噪声和冗余信息需要进行清洗# 统计用户播放次数 user_play_counts triplet_dataset.groupby(user)[play_count].sum().reset_index() user_play_counts.columns [user, total_play_count] # 统计歌曲播放次数 song_play_counts triplet_dataset.groupby(song)[play_count].sum().reset_index() song_play_counts.columns [song, total_play_count] # 合并数据 triplet_dataset pd.merge(triplet_dataset, user_play_counts, onuser) triplet_dataset pd.merge(triplet_dataset, song_play_counts, onsong) # 计算标准化播放次数 triplet_dataset[normalized_play_count] triplet_dataset[play_count] / triplet_dataset[total_play_count]2.3 构建评分矩阵将用户-歌曲交互数据转换为稀疏矩阵from scipy.sparse import coo_matrix # 创建用户和歌曲的索引映射 user_index {user: idx for idx, user in enumerate(triplet_dataset[user].unique())} song_index {song: idx for idx, song in enumerate(triplet_dataset[song].unique())} # 构建稀疏矩阵 row triplet_dataset[user].map(user_index) col triplet_dataset[song].map(song_index) data triplet_dataset[normalized_play_count] rating_matrix coo_matrix((data, (row, col)), shape(len(user_index), len(song_index)))3. SVD矩阵分解的实现3.1 SVD算法原理奇异值分解SVD将评分矩阵R分解为三个矩阵的乘积R ≈ U × Σ × V^T其中U是用户特征矩阵Σ是奇异值对角矩阵V^T是歌曲特征矩阵的转置3.2 使用Scipy实现SVDfrom scipy.sparse.linalg import svds # 执行SVD分解 k 50 # 潜在特征维度 U, sigma, Vt svds(rating_matrix, kk) # 将sigma转换为对角矩阵 sigma np.diag(sigma) # 计算预测评分矩阵 predicted_ratings np.dot(np.dot(U, sigma), Vt)3.3 参数选择与优化选择合适的潜在特征维度k对推荐质量至关重要k值计算时间推荐质量适用场景10快一般快速原型50中等好生产环境100慢优秀研究用途提示在实际应用中可以通过交叉验证来选择最优的k值4. 推荐系统实现与评估4.1 生成推荐结果def generate_recommendations(user_id, predicted_ratings, top_n10): # 获取用户索引 user_idx user_index[user_id] # 获取用户预测评分 user_ratings predicted_ratings[user_idx] # 获取用户已听过的歌曲 listened_songs triplet_dataset[triplet_dataset[user] user_id][song].unique() # 排除已听过的歌曲 song_indices [i for i, song in enumerate(song_index) if song not in listened_songs] # 获取推荐歌曲索引 recommended_indices np.argsort(user_ratings[song_indices])[-top_n:][::-1] # 返回推荐歌曲 return [list(song_index.keys())[song_indices[i]] for i in recommended_indices]4.2 评估推荐质量使用留出法评估推荐系统性能from sklearn.model_selection import train_test_split # 划分训练集和测试集 train_data, test_data train_test_split(triplet_dataset, test_size0.2) # 训练集评分矩阵 train_matrix coo_matrix(...) # 同前述方法构建 # 测试集评分矩阵 test_matrix coo_matrix(...) # 同前述方法构建 # 训练模型 U_train, sigma_train, Vt_train svds(train_matrix, k50) # 计算预测评分 predicted_ratings np.dot(np.dot(U_train, sigma_train), Vt_train) # 计算RMSE from sklearn.metrics import mean_squared_error rmse np.sqrt(mean_squared_error(test_matrix.data, predicted_ratings[test_matrix.row, test_matrix.col]))5. 系统优化与扩展5.1 冷启动问题解决方案对于新用户或新歌曲可以采用以下策略热门推荐推荐当前最流行的歌曲混合推荐结合基于内容的推荐方法探索机制主动推荐多样化的歌曲收集用户反馈5.2 实时推荐实现为了提高系统响应速度可以# 预计算用户特征矩阵 user_features np.dot(U_train, sigma_train) # 实时推荐时只需计算 def realtime_recommend(user_features, song_features, user_idx, top_n10): user_feature user_features[user_idx] scores np.dot(user_feature, song_features) return np.argsort(scores)[-top_n:][::-1]5.3 工程化部署在实际部署时需要考虑增量更新定期更新SVD模型而不需要完全重新训练分布式计算使用Spark MLlib等工具处理大规模数据缓存机制缓存热门推荐结果减少计算开销6. 完整代码实现import pandas as pd import numpy as np from scipy.sparse import coo_matrix from scipy.sparse.linalg import svds from sklearn.model_selection import train_test_split class MusicRecommender: def __init__(self, data_path, k50): self.k k self.load_data(data_path) self.prepare_data() self.train_model() def load_data(self, data_path): self.triplet_dataset pd.read_csv(data_path, sep\t, headerNone, names[user,song,play_count]) def prepare_data(self): # 计算标准化播放次数 user_play_counts self.triplet_dataset.groupby(user)[play_count].sum().reset_index() user_play_counts.columns [user, total_play_count] self.triplet_dataset pd.merge(self.triplet_dataset, user_play_counts, onuser) self.triplet_dataset[normalized_play_count] self.triplet_dataset[play_count] / self.triplet_dataset[total_play_count] # 创建索引映射 self.user_index {user: idx for idx, user in enumerate(self.triplet_dataset[user].unique())} self.song_index {song: idx for idx, song in enumerate(self.triplet_dataset[song].unique())} # 构建稀疏矩阵 row self.triplet_dataset[user].map(self.user_index) col self.triplet_dataset[song].map(self.song_index) data self.triplet_dataset[normalized_play_count] self.rating_matrix coo_matrix((data, (row, col)), shape(len(self.user_index), len(self.song_index))) def train_model(self): # 执行SVD分解 U, sigma, Vt svds(self.rating_matrix, kself.k) sigma np.diag(sigma) self.predicted_ratings np.dot(np.dot(U, sigma), Vt) self.song_features np.dot(sigma, Vt).T def recommend(self, user_id, top_n10): if user_id not in self.user_index: return self.get_popular_songs(top_n) user_idx self.user_index[user_id] user_ratings self.predicted_ratings[user_idx] # 获取用户已听过的歌曲 listened_songs self.triplet_dataset[self.triplet_dataset[user] user_id][song].unique() song_indices [i for i, song in enumerate(self.song_index) if song not in listened_songs] # 获取推荐歌曲索引 recommended_indices np.argsort(user_ratings[song_indices])[-top_n:][::-1] return [list(self.song_index.keys())[song_indices[i]] for i in recommended_indices] def get_popular_songs(self, top_n10): song_play_counts self.triplet_dataset.groupby(song)[play_count].sum() return song_play_counts.sort_values(ascendingFalse).head(top_n).index.tolist()7. 实际应用中的挑战与解决方案在构建音乐推荐系统时我们经常会遇到以下挑战数据稀疏性问题解决方案使用正则化技术或混合推荐方法计算效率问题解决方案采用增量学习或分布式计算框架推荐多样性问题解决方案引入多样性指标优化推荐结果用户偏好变化问题解决方案实现时间衰减机制更重视近期行为解释性问题解决方案提供推荐理由如推荐这首歌是因为你喜欢类似的艺术家

别再手动改Hosts了！用Docker Compose一键部署JeecgBoot微服务全家桶（v3.4.2版）

容器化革命：用Docker Compose轻松驾驭JeecgBoot微服务生态在微服务架构盛行的今天，JeecgBoot作为国内领先的低代码开发平台，其v3.4.2版本已经形成了完整的微服务生态链。然而传统部署方式需要手动配置Hosts、处理服务依赖关系、逐个启动组件&…...

2026/5/28 3:36:19 阅读更多 →

2026支持百度AI优化的GEO服务商测评：服务优质响应高效

2026年生成式AI全面融入信息检索、消费决策与商业合作场景，百度AI、豆包、DeepSeek、腾讯元宝等平台已成为用户获取信息的核心入口，GEO生成式引擎优化从企业可选营销方案升级为数字化必选战略。当前企业在挑选GEO合作伙伴时，重点关注两大核心…...

2026/5/28 3:35:17 阅读更多 →

信号处理、PCA降维都离不开它：手把手图解‘能量守恒’在正交变换中的核心作用

信号处理与机器学习中的能量守恒：正交变换的核心原理与实践指南在数字信号处理和机器学习领域，我们经常听到"能量守恒"这个术语被反复提及——从傅里叶变换的Parseval定理到PCA降维的方差最大化原则，能量守恒概念如同一条金线&…...

2026/5/28 3:28:14 阅读更多 →

PS5 NOR修改器终极指南：简单三步修复你的游戏主机

PS5 NOR修改器终极指南：简单三步修复你的游戏主机【免费下载链接】PS5NorModifier The PS5 Nor Modifier is an easy to use Windows based application to rewrite your PS5 NOR file. This can be useful if your NOR is corrupt, or if you have a disc edition…...

2026/5/25 2:11:12 阅读更多 →

毕业论文，如何合规使用AI

2022年11月出现了大语言模型ChatGPT，今年是第一批使用大模型大学生毕业的第一年，如何安全、高效地使用AIGC正在成为不少人关心的重要事情。大学生或研究生毕业论文使用AIGC的核心原则是：把它当成你的“科研实习生”，而不是“代笔枪…...

2026/5/26 15:59:40 阅读更多 →

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper是一款让Windows家庭版支持多用户远程桌面的开源工具，但许多用户在系…...

2026/5/24 0:32:45 阅读更多 →