影刀RPA实操指南_截图与OCR文字识别实战从页面截图到数据提取
影刀RPA实操指南截图与OCR文字识别实战——从页面截图到数据提取有些网页数据不是以文本形式存在的。图片里的文字、验证码、截图的表格——这些内容你用获取元素文本是取不到的。影刀RPA内置了截图和OCR光学字符识别能力可以识别图片里的文字把看得到但抓不到的数据提取出来。什么场景需要OCR以下几种情况XPath和文本提取都不好用网页数据以图片形式展示部分老系统、图表需要识别验证码文字截取某个区域的表格图片转成文本部分防采集的网站文字渲染在Canvas里桌面应用的界面文字提取Windows自动化场景OCR不是第一选择——能用元素捕获就尽量不用OCR。OCR的识别率不是100%文字模糊或背景复杂时准确率会下降。影刀的截图指令在影刀RPA中截图相关的指令有两类店群矩阵自动化突破运营极限1. 页面截图截图指令可以截取整个网页或指定区域。参数设置截图范围整个页面/可视区域/指定元素保存路径C:\截图\screenshot_{{timestamp}}.png截图格式PNG清晰但文件大/ JPEG文件小但可能模糊{{timestamp}}是变量占位符每次截图自动生成不同文件名不会覆盖。2. 指定元素截图选择对指定元素截图先捕获目标元素比如验证码图片或表格区域然后截图。这比截整个页面再裁剪高效。OCR文字识别截图完成后拖入OCR文字识别指令参数说明识别引擎内置OCR免费/ 百度OCR需配置API Key/ 腾讯OCR需配置API Key识别语言中文、英文、中英混合识别区域完整图片/指定坐标区域内置OCR vs 第三方OCR对比项内置OCR百度OCR腾讯OCR费用免费每日免费额度每月免费额度准确率一般80%-90%高95%高95%特殊字体弱强强配置复杂度零需申请API Key需申请SecretId/Key日常简单文字识别用内置OCR够了。验证码或图片表格这种对准确率要求高的场景建议配置百度或腾讯OCR。实战识别图片中的表格数据完整操作流程# 步骤1捕获目标元素表格图片的区域# 在元素捕获模式下选中表格所在的div或img元素# 步骤2对指定元素截图# 指令对指定元素截图# 保存路径C:\temp\table_capture.png# 步骤3OCR识别# 指令OCR文字识别# 识别引擎腾讯OCR推荐# 识别结果存入变量ocr_result# 步骤4解析识别结果# OCR返回的是纯文本需要自己用Python解析行列结构注意OCR返回的是一段连续文字不会自动识别行列结构。如果表格有清晰的分隔线可以用Python按换行符和空格拆分。temu店群自动化报活动案例实战验证码识别流程验证码是登录流程最常见的自动化障碍。识别思路# 验证码识别流程# 1. 截取验证码图片元素# 2. OCR识别图片文字# 3. 清理识别结果去掉空格、标点codeocr_result.strip().replace( ,)# 4. 填入验证码输入框# 5. 判断是否登录成功# 成功 → 继续# 失败 → 刷新验证码重试最多3次提高识别率的技巧截图前确保图片足够大验证码元素太小会降低识别率截取后先做图片预处理放大、转灰度、二值化需要Python的Pillow库内置OCR识别4位数字验证码准确率约70%6位混合字符约50%图片预处理提升识别率fromPILimportImage,ImageEnhance# 打开截图imgImage.open(rC:\temp\captcha.png)# 放大2倍文字太小OCR识别不准imgimg.resize((img.width*2,img.height*2),Image.LANCZOS)# 转灰度图imgimg.convert(L)# 提高对比度enhancerImageEnhance.Contrast(img)imgenhancer.enhance(2.0)# 保存处理后图片img.save(rC:\temp\captcha_processed.png)预处理后再把captcha_processed.png传给OCR识别率能提高15%~20%。常见问题问题原因解决识别结果乱码语言设置错误确认OCR引擎选的是中文识别率低图片不清晰截图前放大页面Ctrl滚轮或做图片预处理返回空字符串截图为空白区域检查元素是否正确捕获用输出日志打截图路径确认| 第三方OCR报错 | API配置问题 | 检查API Key/Secret是否过期每日额度是否用完 || 内置OCR不支持 | 版本太旧 | 升级影刀RPA到最新版 |#影刀RPA #RPA自动化 #OCR #截图识别 #验证码识别作者林焱本文为《影刀RPA学习手册》系列文章之一内容源于实操经验的整理与分享。