用Python和Pandas快速清洗2020年人口普查Excel数据（附完整代码）

张

张建站

2026/4/28 19:35:31

10分钟阅读

用Python和Pandas快速清洗2020年人口普查Excel数据（附完整代码）

Python与Pandas实战高效清洗人口普查Excel数据的完整指南当你第一次打开从人口普查网站下载的Excel文件时可能会被上百个表格文件的数量吓到。每个文件包含城市、镇和乡村三个版本的数据文件名如1-1a 各地区户数、人口数和性别比(城市)这样的结构。面对如此庞大的数据集如何快速将其转化为可用于分析的整洁格式本文将带你用Python的Pandas库一步步解决这个实际问题。1. 环境准备与数据概览在开始之前确保你已经安装了Python 3.7版本和以下必要的库pip install pandas openpyxl xlrdPandas是数据处理的核心库openpyxl和xlrd则是处理Excel文件所需的引擎。我建议使用Jupyter Notebook进行这类数据探索工作它能让你交互式地查看每一步的结果。假设你已经将所有Excel文件下载到本地的一个文件夹中比如population_data/。首先我们需要了解数据的组织结构import os import pandas as pd # 查看文件夹中的文件 data_dir population_data/ files os.listdir(data_dir) print(f共找到{len(files)}个文件前5个为{files[:5]})典型的输出可能类似于共找到243个文件前5个为[1-1.xlsx, 1-1a.xlsx, 1-1b.xlsx, 1-1c.xlsx, 1-2.xlsx]2. 多文件合并策略与自动化处理面对数百个结构相似的Excel文件手动一个个打开处理显然不现实。我们需要设计一个自动化流程2.1 文件分类与批量读取观察文件名模式我们可以将其分为三类主文件如1-1.xlsx包含全国汇总数据城市版如1-1a.xlsx城市地区数据镇/乡村版如1-1b.xlsx、1-1c.xlsxdef classify_files(files): main_files [f for f in files if re.match(r^\d-\d\.xlsx$, f)] city_files [f for f in files if re.match(r^\d-\da\.xlsx$, f)] town_files [f for f in files if re.match(r^\d-\db\.xlsx$, f)] village_files [f for f in files if re.match(r^\d-\dc\.xlsx$, f)] return main_files, city_files, town_files, village_files2.2 数据合并的通用函数创建一个通用函数来处理同类文件的合并def merge_similar_files(file_list, data_dir, area_type全国): dfs [] for file in file_list: # 提取表名作为新列 table_name os.path.splitext(file)[0] try: df pd.read_excel(os.path.join(data_dir, file)) df[数据表] table_name df[区域类型] area_type dfs.append(df) except Exception as e: print(f处理文件{file}时出错{str(e)}) return pd.concat(dfs, ignore_indexTrue)3. 数据清洗实战技巧合并后的数据往往存在各种问题需要系统性地清洗3.1 处理缺失值与异常数据人口普查数据中常见的缺失值表现形式多样# 识别缺失值模式 def analyze_missing(df): missing_stats pd.DataFrame({ 缺失值数量: df.isnull().sum(), 缺失值比例: df.isnull().mean().round(4) * 100 }) return missing_stats[missing_stats[缺失值数量] 0]对于不同的缺失情况我们有多种处理策略缺失类型处理方法Pandas代码示例随机缺失均值/中位数填充df.fillna(df.mean())整列缺失删除或标记df.dropna(axis1)特定含义缺失自定义填充df.fillna({列名: -1})3.2 数据类型统一与格式转换人口数据中常见的数据类型问题包括数字存储为文本如1,234日期格式不一致分类变量编码混乱# 清理数字列中的千分位分隔符 def clean_numeric_columns(df): for col in df.select_dtypes(includeobject): if df[col].str.contains(,).any(): df[col] df[col].str.replace(,, ).astype(float) return df # 统一地区名称 region_mapping { 北京: 北京市, 上海: 上海市, # 其他映射关系... } df[地区] df[地区].map(region_mapping).fillna(df[地区])4. 高效数据转换与特征工程清洗后的数据需要进一步加工才能用于分析4.1 创建衍生特征从原始数据中可以提取更有意义的指标# 计算性别比 df[性别比] df[男性人口] / df[女性人口] # 年龄分段 bins [0, 14, 64, 120] labels [少年, 成年, 老年] df[年龄分组] pd.cut(df[年龄], binsbins, labelslabels)4.2 数据透视与聚合Pandas的pivot_table功能非常适合人口统计分析# 各地区不同年龄段人口分布 age_distribution pd.pivot_table( df, values人口数, index地区, columns年龄分组, aggfuncsum, marginsTrue )5. 性能优化与大数据处理技巧当处理全国范围的人口数据时性能可能成为瓶颈5.1 内存优化方法# 查看当前内存使用 df.info(memory_usagedeep) # 优化数值列类型 def reduce_memory_usage(df): for col in df.select_dtypes(include[int64]): df[col] pd.to_numeric(df[col], downcastinteger) for col in df.select_dtypes(include[float64]): df[col] pd.to_numeric(df[col], downcastfloat) return df5.2 分块处理大型Excel文件对于特别大的文件可以使用分块读取chunk_size 50000 chunks pd.read_excel(large_file.xlsx, chunksizechunk_size) processed_chunks [] for chunk in chunks: # 对每个块应用清洗逻辑 processed_chunk clean_data(chunk) processed_chunks.append(processed_chunk) final_df pd.concat(processed_chunks)6. 质量检查与验证在完成清洗后必须验证数据的完整性和一致性6.1 逻辑校验# 检查各地区人口总和是否合理 total_population df.groupby(地区)[人口数].sum() assert total_population.sum() 1e9, 总人口数异常低 # 检查性别比范围 assert df[性别比].between(0.8, 1.2).all(), 存在异常性别比6.2 可视化快速验证import matplotlib.pyplot as plt # 年龄金字塔示例 fig, ax plt.subplots(figsize(10, 6)) male_data df[df[性别]男].groupby(年龄)[人口数].sum() female_data df[df[性别]女].groupby(年龄)[人口数].sum() ax.barh(male_data.index, male_data, label男性) ax.barh(female_data.index, -female_data, label女性) ax.set_title(人口年龄金字塔) ax.legend() plt.show()7. 自动化流程封装将上述步骤封装成可重用的管道from sklearn.pipeline import Pipeline from sklearn.base import BaseEstimator, TransformerMixin class DataCleaner(BaseEstimator, TransformerMixin): def __init__(self, missing_threshold0.3): self.missing_threshold missing_threshold def fit(self, X, yNone): return self def transform(self, X): # 实现所有清洗逻辑 X self.handle_missing_values(X) X self.standardize_columns(X) return X # 其他方法实现... # 创建处理管道 pipeline Pipeline([ (merger, FileMerger()), (cleaner, DataCleaner()), (transformer, FeatureEngineer()) ]) # 执行整个流程 clean_data pipeline.fit_transform(raw_data)在实际项目中我发现将城市、镇和乡村数据分别处理后再合并比一次性处理所有文件更不容易出错。另外为每个处理步骤添加日志记录非常重要当处理数百个文件时能快速定位问题文件。

情侣专属微信小程序：用游戏化任务系统让爱情升温的完整指南

情侣专属微信小程序：用游戏化任务系统让爱情升温的完整指南【免费下载链接】Rainbow-Cats-Personal-WeChat-MiniProgram 给女朋友做的微信小程序！情侣自己的任务和商城系统！ 项目地址: https://gitcode.com/gh_mirrors/ra/Rainbow-Cats-Pe…...

2026/4/28 19:34:04 阅读更多 →

保姆级教程：Element-ui Table动态列渲染的完整避坑指南（附key值最佳实践）

Element-ui Table动态列渲染工程化实践：从原理到高阶应用动态表格渲染是前端开发中常见的需求场景，尤其是在需要用户自定义视图的仪表盘、报表系统中。Element-ui作为老牌Vue组件库，其Table组件在实际业务中应用广泛，但动态列场景…...

2026/4/28 19:30:32 阅读更多 →

整流二极管原理、选型与应用全解析

1. 整流二极管基础原理与分类 1.1 PN结单向导电机制整流二极管的核心是PN结结构。当P型半导体（空穴多数载流子）与N型半导体（电子多数载流子）结合时，交界处会形成耗尽层。这个区域存在内建电场，其方向从N区…...

2026/4/28 19:30:09 阅读更多 →

AI智能体工作流编排：从单体架构到流水线协作的工程实践

1. 项目概述：当AI智能体学会“流水线”协作最近在探索AI智能体（Agent）的落地应用时，我遇到了一个非常有意思的项目：coleam00/ottomator-agents。这个名字本身就充满了想象力——“Ottomator”，听起来像是“…...

2026/4/26 0:13:33 阅读更多 →

ChatGPT翻译能力解析与实战技巧

1. ChatGPT翻译能力深度解析作为一名长期从事语言技术研究的从业者，我最近系统测试了ChatGPT在多语言翻译场景下的实际表现。与传统的机器翻译工具相比，ChatGPT展现出几个独特优势：首先，它的上下文理解能力远超传统翻译引擎。当处…...

2026/4/26 0:13:35 阅读更多 →

2026届毕业生推荐的十大降AI率助手实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在内容生产这个过程当中，要降低AIGC也就是人工智能生成内容所占的比例&#xff…...

2026/4/26 0:15:22 阅读更多 →