Python爬虫实战：批量下载校园风光图

张

张建站

2026/5/29 3:48:29

10分钟阅读

场景学校官网的列表翻页图片批量下载工具requestsBeautifulSoup4 随机延时反爬产出图片自动保存到指定文件夹命名格式序号-标题.jpg一、项目背景找到学生时代的作业心血来潮重新又写了一遍。关键还是定位标签转成BeautifulSoup后找到标签特征不断通过find下探。把网页内容获取网页内容解析网页图片下载三个模块写成了三个方法只要有下一页就不断下载。找下一页时发现下一页是部分替换直接省下一大步。剩下的就是不断遍历查找有没有下一页了二、代码整体思路步骤函数名作用1️⃣getCpageNpage(url)请求当前页解析HTML提取下一页链接2️⃣getImageUrl(soup)从当前页解析所有图片的URL 标题3️⃣downloadImage(page_url_dict, folder)遍历字典逐张下载图片到指定文件夹while url:循环不断翻页直到没有下一页为止三、完整代码import requests from bs4 import BeautifulSoup import os from time import sleep import random def getCpageNpage(url): headers { user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/148.0.0.0 Safari/537.36 Edg/148.0.0.0 } page requests.get(urlurl, headersheaders) # 设置编码要不然文本会显示乱码 page.encoding utf-8 soup BeautifulSoup(page.text, html.parser) try: next_page_href (soup.find(div, class_right n_tupian) .find(div, class_pb_sys_common pb_sys_normal pb_sys_style1) .find(span, p_next p_fun) .find(a)[href]) # 查看到当前网址与下一页网址的关系。当前网址最后一个\之后的内容进行替换即可得到下一页网址 replace_str url.split(/)[-1] next_page_url url.replace(replace_str, next_page_href) except Exception as e: next_page_url None return soup, next_page_url def getImageUrl(soup): div soup.find(div, class_right n_tupian) div_ul_li div.find(ul).find_all(li) page_url_dict {} for li in div_ul_li: title li.find(class_img).find(a)[title] src li.find(class_img).find(img)[src] page_url https://www.gzgs.edu.cn/ src # print(title, page_url) page_url_dict[page_url] title return page_url_dict def downloadImage(page_url_dict, folder./images): global index os.makedirs(folder, exist_okTrue) for img in page_url_dict: response requests.get(img) # print(response.content) print(f下载第 {index} 张{page_url_dict[img]}中图片链接{img}) image_name folder / str(index) - page_url_dict[img] .jpg # 图片得用二进制字节流读取保存 with open(image_name, wb) as f: f.write(response.content) index 1 sleep(round(random.uniform(0.5, 1), 2)) if __name__ __main__: url 学校网址 folder 保存路径 index 1 while url: print(url) try: soup, url getCpageNpage(url) except Exception as e: soup print(网页请求失败) print(e) try: page_url_dict getImageUrl(soup) except Exception as e: page_url_dict print(获取url失败) print(e) try: downloadImage(page_url_dict, folder) except Exception as e: print(下载失败) print(e) sleep(round(random.uniform(2, 4), 1))

别只盯着地图！深度解析ArcGIS Pro内容窗格的5个隐藏选项卡（选择、编辑、捕捉…）

别只盯着地图！深度解析ArcGIS Pro内容窗格的5个隐藏选项卡（选择、编辑、捕捉…）当你第一次打开ArcGIS Pro，目光很自然会被中央的地图画布吸引——毕竟，这才是我们工作的主战场。但今天，我要带你将视线暂时移…...

2026/5/29 3:43:17 阅读更多 →

不只是安装：用ArcSWAT做水文分析前，你最好先调整好这3个界面设置

不只是安装：用ArcSWAT做水文分析前，你最好先调整好这3个界面设置当你第一次打开ArcSWAT时，是否觉得那些挤在一起的按钮和模糊的字体让你操作起来格外费力？很多水文研究者误以为安装完软件就能立刻投入工作，殊不知未经优…...

2026/5/29 3:43:16 阅读更多 →

A166汇编BYTE运算符详解与内存操作实践

1. 问题背景与需求分析在嵌入式开发领域，特别是使用C166架构进行底层编程时，开发者经常需要直接操作内存地址的特定字节。这种需求通常出现在以下几种场景：硬件寄存器访问：某些外设寄存器可能要求按字节写入配置参数数据结构序列化…...

2026/5/29 3:43:14 阅读更多 →

PS5 NOR修改器终极指南：简单三步修复你的游戏主机

PS5 NOR修改器终极指南：简单三步修复你的游戏主机【免费下载链接】PS5NorModifier The PS5 Nor Modifier is an easy to use Windows based application to rewrite your PS5 NOR file. This can be useful if your NOR is corrupt, or if you have a disc edition…...

2026/5/28 16:28:31 阅读更多 →

毕业论文，如何合规使用AI

2022年11月出现了大语言模型ChatGPT，今年是第一批使用大模型大学生毕业的第一年，如何安全、高效地使用AIGC正在成为不少人关心的重要事情。大学生或研究生毕业论文使用AIGC的核心原则是：把它当成你的“科研实习生”，而不是“代笔枪…...

2026/5/26 15:59:40 阅读更多 →

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper是一款让Windows家庭版支持多用户远程桌面的开源工具，但许多用户在系…...

2026/5/24 0:32:45 阅读更多 →