近日百度文心衍生模型PaddleOCR在GitHub上的Star数突破73.3K首次超越谷歌旗下开源OCR标杆产品Tesseract OCR73.2K成为全球Star数最高的OCR项目。Tesseract OCR诞生于1985年最初由惠普实验室研发2005年开源后由Google接手维护并持续迭代是OCR领域延续近四十年的技术标杆长期位居GitHub OCR项目Star数榜首。此次被PaddleOCR超越标志着这一标杆正在被新一代技术体系改写也是大模型驱动下中国开源项目首次在OCR领域超越谷歌主导的标杆产品。PaddleOCR基于文心大模型训练而来是文心大模型多模态能力的重要部分支持超100种语言识别用户覆盖160个国家和地区。1月29日新一代文档解析模型PaddleOCR-VL-1.5在 OmniDocBench V1.5 榜单中取得了全球SOTA成绩。近年来大模型成为OCR赛道增长的重要动力。Star History数据显示PaddleOCR在GitHub上的Star自2024年起呈现爆发式增长。2025年以来OCR更成为大模型厂商布局的重点方向DeepseekOCR、HunyuanOCR、GLM OCR等产品相继发布。此外PaddleOCR同步升级服务能力官网免费每日解析页数由1万提升至2万用户还可通过OpenClaw直接调用PaddleOCR Skill免费获取高精度PDF解析能力。与此同时PaddleOCR OCEAN生态联盟正式成立面向核心开源贡献者、深度企业用户及全球平台伙伴开放首批成员包括Hugging Face、Dify、RAGFlow、Cherry Studio、Milvus等全球平台伙伴将共同推动OCR技术在更广泛场景中的应用落地。