Python爬虫新选择：用arxiv.py库轻松抓取最新AI论文（附完整代码示例）

张

张建站

2026/5/2 12:41:25

10分钟阅读

Python爬虫新选择用arxiv.py库轻松抓取最新AI论文附完整代码示例在AI技术日新月异的今天跟踪最新学术论文已成为开发者和研究者的必修课。arXiv作为全球最大的开放学术平台之一每天都有大量高质量论文发布但手动浏览和筛选效率极低。传统爬虫方案如requestsBeautifulSoup不仅代码量大还容易触发反爬机制。而arxiv.py这个轻量级Python库让获取学术资源变得前所未有的简单。1. 为什么选择arxiv.py而非传统爬虫在学术资源获取领域开发者通常面临几种选择手动下载、传统爬虫工具或专用API库。arxiv.py作为arXiv官方API的Python封装在易用性和功能性上达到了完美平衡。与传统爬虫方案对比特性arxiv.pyrequestsBeautifulSoup代码复杂度低高反爬风险无有查询语法支持完整需自行解析分页处理自动手动元数据完整性结构化需提取下载速度限制宽松严格实际案例获取最近一周的LLM相关论文arxiv.py仅需5行代码而传统方案至少需要处理请求头设置页面解析分页逻辑反爬规避数据清洗# arxiv.py实现示例 import arxiv search arxiv.Search( queryLLM, max_results50, sort_byarxiv.SortCriterion.SubmittedDate ) for result in arxiv.Client().results(search): print(result.title, result.published)2. 环境配置与高级查询技巧安装仅需标准pip命令但国内用户可能遇到下载慢的问题# 基础安装 pip install arxiv # 使用阿里云镜像加速 pip install -i https://mirrors.aliyun.com/pypi/simple arxiv高级查询语法是arxiv.py的核心优势远比网页搜索强大字段限定查询ti:标题搜索如ti:transformerau:作者搜索如au:yann_lecuncat:分类搜索如cat:cs.CL布尔运算# 搜索Yann LeCun或Geoffrey Hinton的CNN相关论文 query (au:yann_lecun OR au:geoffrey_hinton) AND ti:CNN时间范围过滤from datetime import datetime, timedelta last_week datetime.now() - timedelta(days7) search arxiv.Search( queryLLM, sort_byarxiv.SortCriterion.SubmittedDate, sort_orderarxiv.SortOrder.Descending )提示arXiv的完整查询语法参考其官方API手册支持更复杂的逻辑组合。3. 实战构建自动化论文追踪系统将arxiv.py与常用工具结合可以打造个性化的论文工作流。以下是集成Notion的完整示例import arxiv from notion_client import Client # 配置Notion集成 notion Client(authyour_integration_token) database_id your_database_id def add_to_notion(paper): notion.pages.create( parent{database_id: database_id}, properties{ Title: {title: [{text: {content: paper.title}}]}, Authors: {rich_text: [{text: {content: , .join(a.name for a in paper.authors)}}]}, URL: {url: paper.entry_id}, Published: {date: {start: str(paper.published.date())}}, Summary: {rich_text: [{text: {content: paper.summary[:2000]}}]} } ) # 获取最近10篇CVPR论文 search arxiv.Search( querycat:cs.CV AND ti:CVPR, max_results10, sort_byarxiv.SortCriterion.SubmittedDate ) for result in arxiv.Client().results(search): add_to_notion(result)扩展功能建议添加Telegram机器人通知新论文自动下载PDF到指定文件夹与Zotero集成管理参考文献定期运行如每周一早上8点4. 性能优化与异常处理当处理大量论文时需要注意以下关键点分页策略# 分批获取避免内存溢出 search arxiv.Search(queryLLM, max_results1000) for i, result in enumerate(arxiv.Client().results(search)): if i 300: # 只处理前300条 break process_paper(result)错误重试机制from tenacity import retry, stop_after_attempt retry(stopstop_after_attempt(3)) def safe_download(paper): try: paper.download_pdf(dirpath./papers) except arxiv.ArxivError as e: print(f下载失败: {e}) raise速率限制规避添加随机延迟0.5-2秒使用代理IP池仅在高频请求时需要优先使用sort_byarxiv.SortCriterion.SubmittedDate减少重复完整工作流示例import time import random from pathlib import Path def batch_download(query, output_dir, limit100): Path(output_dir).mkdir(exist_okTrue) search arxiv.Search( queryquery, max_resultslimit, sort_byarxiv.SortCriterion.SubmittedDate ) for i, paper in enumerate(arxiv.Client().results(search)): try: filename f{paper.get_short_id()}_{paper.title[:50]}.pdf paper.download_pdf(dirpathoutput_dir, filenamefilename) print(f已下载: {filename}) time.sleep(random.uniform(0.5, 1.5)) except Exception as e: print(fError on {paper.title}: {str(e)}) continue batch_download(cat:cs.LG AND ti:diffusion, ./diffusion_papers)5. 与其他学术工具的深度集成arxiv.py的真正价值在于其可扩展性。以下是三个进阶集成方案方案一构建论文推荐系统# 基于用户历史记录推荐相关论文 user_interests [transformer, attention mechanism] recommendations arxiv.Search( query OR .join(user_interests), max_results20, sort_byarxiv.SortCriterion.Relevance )方案二自动生成文献综述from langchain.chat_models import ChatOpenAI from langchain.schema import HumanMessage def generate_summary(paper): llm ChatOpenAI(temperature0.5) prompt f用中文总结这篇AI论文的核心贡献:\n\n标题:{paper.title}\n摘要:{paper.summary} return llm([HumanMessage(contentprompt)]).content for paper in arxiv.Client().results(arxiv.Search(querycat:cs.CL, max_results5)): print(f## {paper.title}\n{generate_summary(paper)}\n)方案三学术社交网络分析# 分析作者合作网络 import networkx as nx G nx.Graph() search arxiv.Search(queryau:yoshua_bengio, max_results50) for paper in arxiv.Client().results(search): authors [a.name for a in paper.authors] for i in range(len(authors)): for j in range(i1, len(authors)): G.add_edge(authors[i], authors[j]) print(f合作最频繁的搭档: {max(G.degree(), keylambda x:x[1])})6. 实际应用中的经验分享在长期使用arxiv.py管理学术资源的过程中有几个实用技巧值得分享查询优化组合多个条件时先用简单查询测试响应速度复杂查询可能超时本地缓存将结果保存为JSON避免重复请求相同内容import json def cache_results(results, filename): with open(filename, w) as f: json.dump([r.__dict__ for r in results], f)PDF处理结合PyPDF2或pdfminer提取下载论文的关键信息定时任务使用APScheduler创建每日自动抓取任务from apscheduler.schedulers.blocking import BlockingScheduler def daily_fetch(): search arxiv.Search(querycat:cs.AI, max_results10) # 处理逻辑... scheduler BlockingScheduler() scheduler.add_job(daily_fetch, cron, hour8) scheduler.start()遇到最多的问题是API偶尔返回不完整数据解决方案是检查查询语法是否正确添加异常捕获和重试逻辑限制单次请求数量建议不超过1000篇

JoyCon-Driver完整教程：免费将Switch手柄变为PC游戏控制器

JoyCon-Driver完整教程：免费将Switch手柄变为PC游戏控制器【免费下载链接】JoyCon-Driver A vJoy feeder for the Nintendo Switch JoyCons and Pro Controller 项目地址: https://gitcode.com/gh_mirrors/jo/JoyCon-Driver 想让你的任天堂Switch Joy-Con和…...

2026/5/2 12:32:30 阅读更多 →

别再搞混了！DBC里用Unsigned和Signed描述负数的实战区别（附CANdb++操作）

DBC信号配置实战：Signed与Unsigned的负数处理艺术在汽车电子和工业控制领域，CAN总线通信扮演着至关重要的角色。作为描述CAN信号的标准格式，DBC文件中的每个参数设置都可能直接影响数据的解析结果。特别是当我们需要处理负数信号时&#xff…...

2026/5/2 12:32:03 阅读更多 →

终极指南：如何用UnrealPakViewer快速解决虚幻引擎Pak文件分析难题

终极指南：如何用UnrealPakViewer快速解决虚幻引擎Pak文件分析难题【免费下载链接】UnrealPakViewer 查看 UE4 Pak 文件的图形化工具，支持 UE4 pak/ucas 文件项目地址: https://gitcode.com/gh_mirrors/un/UnrealPakViewer 你是否曾经面对虚幻引…...

2026/5/2 12:27:50 阅读更多 →

AI智能体工作流编排：从单体架构到流水线协作的工程实践

1. 项目概述：当AI智能体学会“流水线”协作最近在探索AI智能体（Agent）的落地应用时，我遇到了一个非常有意思的项目：coleam00/ottomator-agents。这个名字本身就充满了想象力——“Ottomator”，听起来像是“…...

2026/5/2 10:59:16 阅读更多 →

ChatGPT翻译能力解析与实战技巧

1. ChatGPT翻译能力深度解析作为一名长期从事语言技术研究的从业者，我最近系统测试了ChatGPT在多语言翻译场景下的实际表现。与传统的机器翻译工具相比，ChatGPT展现出几个独特优势：首先，它的上下文理解能力远超传统翻译引擎。当处…...

2026/5/2 10:59:16 阅读更多 →

2026届毕业生推荐的十大降AI率助手实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在内容生产这个过程当中，要降低AIGC也就是人工智能生成内容所占的比例&#xff…...

2026/5/2 10:59:15 阅读更多 →