在Firefly RK3588开发板上，从编译FFmpeg到跑通YOLOv5+DeepSORT的完整踩坑实录

张

张建站

2026/4/26 10:58:48

10分钟阅读

在Firefly RK3588开发板上，从编译FFmpeg到跑通YOLOv5+DeepSORT的完整踩坑实录

在Firefly RK3588开发板上从编译FFmpeg到跑通YOLOv5DeepSORT的完整实践指南当拿到一块Firefly RK3588开发板时很多开发者都会迫不及待地想在上面部署最新的AI视觉应用。作为一个拥有6TOPS算力的ARM平台RK3588确实为边缘计算提供了强大的硬件基础。但在实际部署过程中从底层库的编译到AI模型的适配每一步都可能遇到意想不到的挑战。本文将分享一个完整的实践过程从最基本的FFmpeg编译开始到最终成功运行YOLOv5DeepSORT多目标跟踪系统。1. 开发环境准备与基础库编译在RK3588这样的ARM平台上直接使用apt-get安装的预编译库往往无法充分发挥硬件性能有时甚至会出现兼容性问题。因此我们需要从源码开始编译关键的基础库。1.1 FFmpeg的定制化编译FFmpeg作为多媒体处理的核心库其编译过程需要特别注意硬件加速的支持。以下是针对RK3588平台的优化编译步骤# 安装基本编译工具 sudo apt-get update sudo apt-get install -y build-essential cmake git autoconf automake libtool # 编译安装NASM汇编器 wget https://www.nasm.us/pub/nasm/releasebuilds/2.15.05/nasm-2.15.05.tar.gz tar -xvf nasm-2.15.05.tar.gz cd nasm-2.15.05 ./configure --prefix/usr/local make -j$(nproc) sudo make installx264编码器的编译需要特别注意ARM平台的优化选项git clone https://code.videolan.org/videolan/x264.git cd x264 ./configure --enable-shared --enable-static --prefix/usr/local \ --disable-asm --hostarm-linux make -j$(nproc) sudo make install最后编译FFmpeg时我们需要确保启用了RK3588的硬件加速特性git clone https://git.ffmpeg.org/ffmpeg.git cd ffmpeg ./configure --prefix/usr/local --enable-shared --enable-gpl \ --enable-libx264 --extra-cflags-I/usr/local/include \ --extra-ldflags-L/usr/local/lib --archarm64 \ --enable-neon --enable-v4l2_m2m make -j$(nproc) sudo make install提示编译完成后记得运行sudo ldconfig更新动态链接库缓存避免运行时找不到库文件的问题。1.2 OpenCV的深度优化编译OpenCV 4.7.0版本对ARM平台有较好的支持但需要手动开启NEON和VFPV3优化# 安装依赖项 sudo apt-get install -y libgtk2.0-dev pkg-config libavcodec-dev \ libavformat-dev libswscale-dev libtbb2 libtbb-dev \ libjpeg-dev libpng-dev libtiff-dev libdc1394-22-devCMake配置时需要特别注意以下参数参数名推荐值说明CMAKE_BUILD_TYPERelease启用优化WITH_OPENMPON多线程支持WITH_NEONONARM NEON指令集ENABLE_VFPV3ON浮点运算加速BUILD_opencv_worldOFF避免单个大库文件WITH_FFMPEGON启用FFmpeg支持mkdir build cd build cmake -DCMAKE_INSTALL_PREFIX/usr/local \ -DCMAKE_BUILD_TYPERelease \ -DWITH_OPENMPON \ -DWITH_NEONON \ -DENABLE_VFPV3ON \ -DBUILD_opencv_worldOFF \ -DWITH_FFMPEGON \ .. make -j$(nproc) sudo make install2. RKNN模型转换与优化RKNN是Rockchip提供的神经网络推理框架需要将原始模型转换为RKNN格式才能在RK3588上高效运行。2.1 YOLOv5模型转换首先需要准备YOLOv5的PyTorch模型然后使用RKNN-Toolkit2进行转换from rknn.api import RKNN # 创建RKNN对象 rknn RKNN(verboseTrue) # 模型配置 rknn.config( mean_values[[0, 0, 0]], std_values[[255, 255, 255]], target_platformrk3588 ) # 加载ONNX模型 ret rknn.load_onnx( modelyolov5s.onnx, inputs[images], input_size_list[[3, 640, 640]] ) # 量化模型 ret rknn.build(do_quantizationTrue, dataset./dataset.txt) # 导出RKNN模型 ret rknn.export_rknn(./yolov5s.rknn)注意量化过程中使用的dataset.txt应该包含足够多的代表性图片以确保量化精度。2.2 DeepSORT特征提取模型适配DeepSORT依赖一个特征提取模型来生成目标的外观特征。我们可以使用MobileNet等轻量级模型# 转换特征提取模型 rknn RKNN() rknn.config( target_platformrk3588, quantized_dtypeasymmetric_quantized-8 ) rknn.load_onnx(modelmobilenet.onnx) rknn.build(do_quantizationTrue, dataset./feature_dataset.txt) rknn.export_rknn(./mobilenet_feature.rknn)3. 系统集成与性能优化将YOLOv5和DeepSORT集成到一个完整的系统中需要考虑多线程处理、内存管理和硬件加速等多个方面。3.1 多线程流水线设计RK3588具有4个Cortex-A76和4个Cortex-A55核心合理设计多线程架构可以充分利用CPU资源视频解码线程 → 图像预处理线程 → YOLOv5推理线程 → DeepSORT跟踪线程 → 结果渲染线程关键代码实现// 创建线程池 std::vectorstd::thread workers; workers.emplace_back(videoDecodeThread); workers.emplace_back(preprocessThread, 0); workers.emplace_back(yoloInferenceThread, 1); workers.emplace_back(deepsortThread, 2); workers.emplace_back(renderThread); // 设置CPU亲和性 cpu_set_t cpuset; CPU_ZERO(cpuset); CPU_SET(core_id, cpuset); pthread_setaffinity_np(workers[thread_id].native_handle(), sizeof(cpu_set_t), cpuset);3.2 内存与性能优化技巧针对RK3588平台的一些关键优化点使用零拷贝内存减少CPU和NPU之间的内存拷贝批处理推理尽量合并多个帧一起推理动态频率调节根据负载调整CPU频率# 查看CPU频率 cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_cur_freq # 设置性能模式 echo performance | sudo tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor4. 常见问题与解决方案在实际部署过程中开发者可能会遇到各种问题。以下是几个典型问题及其解决方法4.1 视频编码问题RK3588的视频编码器对某些格式支持有限建议使用MJPEG格式// 修改VideoWriter的fourcc编码 cv::VideoWriter writer; int fourcc cv::VideoWriter::fourcc(M,J,P,G); writer.open(output_path, fourcc, fps, frame_size);4.2 模型推理精度下降如果发现转换后的RKNN模型精度明显下降可以尝试检查量化数据集是否具有代表性尝试关闭量化do_quantizationFalse调整输入数据的归一化参数4.3 内存泄漏排查使用valgrind工具检测内存泄漏valgrind --leak-checkfull --show-leak-kindsall \ --track-originsyes --log-filevalgrind.log \ ./yolov5_deepsort5. 实际效果与性能指标经过优化后系统在Firefly RK3588开发板上的性能表现任务分辨率帧率(FPS)CPU占用率YOLOv5检测640x64015.265%DeepSORT跟踪1280x72010.872%完整流水线1920x10808.585%在部署过程中最耗时的部分往往是视频编解码而非模型推理。通过使用RK3588的硬件编解码器如RGA可以显著提升整体性能。

别再只用LSTM了！用PyTorch手搓一个TCN时间卷积网络，预测电力负荷（附完整代码和ETTh1数据集）

时间序列预测新范式：PyTorch实现TCN的五大实战优势电力负荷预测一直是能源管理系统的核心挑战，传统方法往往依赖LSTM等循环神经网络，但它们在处理长序列时存在明显的效率瓶颈。时间卷积网络（TCN）通过独特的架构设计&a…...

2026/4/26 10:56:38 阅读更多 →

软件测试解读——性能效率测试

一、性能效率测试概述性能效率(efficiency)为GB/T 25000.51-2016标准中提及的软件产品的八大产品质量特征之一。性能效率测试用于评估待测系统与软件在给定的时间和其他资源限制下完成其指定功能的程度，也称作性能测试。为完成系统与软件性能测试，…...

2026/4/26 10:49:44 阅读更多 →

linux学习进展线程同步——条件变量

在前面的学习中，我们掌握了互斥锁和读写锁，它们主要解决线程间的资源竞争问题，保证临界区的独占或共享访问。但在实际开发中，我们常会遇到这样的场景：线程需要等待某个“条件满足”后才能执行（比如消费者等…...

2026/4/26 10:49:18 阅读更多 →

AI智能体工作流编排：从单体架构到流水线协作的工程实践

1. 项目概述：当AI智能体学会“流水线”协作最近在探索AI智能体（Agent）的落地应用时，我遇到了一个非常有意思的项目：coleam00/ottomator-agents。这个名字本身就充满了想象力——“Ottomator”，听起来像是“…...

2026/4/26 0:13:33 阅读更多 →

ChatGPT翻译能力解析与实战技巧

1. ChatGPT翻译能力深度解析作为一名长期从事语言技术研究的从业者，我最近系统测试了ChatGPT在多语言翻译场景下的实际表现。与传统的机器翻译工具相比，ChatGPT展现出几个独特优势：首先，它的上下文理解能力远超传统翻译引擎。当处…...

2026/4/26 0:13:35 阅读更多 →

2026届毕业生推荐的十大降AI率助手实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在内容生产这个过程当中，要降低AIGC也就是人工智能生成内容所占的比例&#xff…...

2026/4/26 0:15:22 阅读更多 →