对计算机视觉的具体认知(绪论)
计算机视觉任务的五层认知框架与前沿解构计算机视觉发展到今天任务的种类早已不是教材上那几项经典设定所能涵盖。从图像分类到全景分割从运动恢复结构到新视角合成从多模态匹配到具身导航表面上看琳琅满目各自有一套评测基准与主流模型。然而当一个研究者同时面对多个看起来截然不同的视觉任务——比如跨视角地理定位、摄影测量三维重建、遥感图像语义分割——时很容易陷入一种“方法孤岛”式的困境看得懂每篇论文的标题却很难将它们放进同一个知识框架里相互参照代码跑得通却说不清一个分割模型与一个匹配模型在设计思想上究竟共享了什么、分歧在哪里。更麻烦的是前沿模型的演进速度远超认知迭代的速度。刚把 Mask R-CNN 系列理解透彻Mask2Former 和 DINO 已经用另一套逻辑重写了分割的定义刚刚熟悉 MVS 的代价体思想NeRF 和 3D Gaussian Splatting 又把三维重建的范式拉回到了隐式表征和可微渲染。在这种节奏下如果不能建立起一种对任务本质的快速定位能力研究就会变成无尽的论文追逐实验也会在“调得动但说不清为什么”的迷雾中循环。这组文章试图做一件朴素的事为计算机视觉任务建立一个层级分明的五层认知框架并用这张地图去拆解那些让人卡壳的前沿模型最终将拆解所得的知识落回到可操作的实验路径上。它既不是综述也不是教程而是一份写给实践者——尤其是遥感影像分析方向的实践者——的“认知速查手册”。多数教材和综述对视觉任务的介绍是枚举式的分类、检测、分割、跟踪、重建、生成……这种平铺的罗列方式对于初步了解是有效的但对于建立深层联系却远远不够。一个更富洞察力的视角是按照“输出目标与根本矛盾”的差异将视觉任务组织成清晰的层级结构。本文提出一个五层框架沿着从几何到语义、从静态到动态、从理解到生成的轴线逐层递进。第一层几何与运动重建。这一层的核心问题是如何从一幅或多幅二维图像中恢复出场景的三维信息包括结构、运动和相机姿态。典型任务包括图像匹配与配准、运动恢复结构、多视图立体视觉、深度估计、三维表面重建和新视角合成。所有这些任务的共性在于它们处理的是像素或特征点之间的空间对应关系最终的输出是某种形式的几何实体——深度图、点云、网格、相机轨迹。在遥感语境下摄影测量中的三维重建、跨视角地理定位中的地面-卫星图像匹配本质上都属于这一层只是额外引入了传感器模型、RPC参数或大视角变化的强先验。第二层语义与区域解析。如果说第一层关心“在哪里”第二层关心的则是“是什么”和“在哪里是什么”。这一层的任务可以按语义粒度进一步划分图像级的场景分类、区域/框级的目标检测、像素级的语义分割、实例分割与全景分割。它们的共性在于需要将输入图像映射到一个有意义的、可解释的标签空间输出具有语义属性的结构化结果。遥感中的地物分类、土地覆被制图、语义分割都是这一层的典型实例。第三层跨模态与跨视角理解。这是一个横跨前两层的特殊层级。当传感器模态不同光学、SAR、高光谱、获取视角不同地面、无人机、卫星、时间不同时视觉数据的分布会产生剧烈偏移。此时单纯依赖几何约束或语义不变性常常不够。这一层的任务——跨模态匹配、跨视角地理定位、变化检测——必须在几何对齐与语义对齐之间寻找平衡甚至重新设计表征学习的目标。它们揭示了视觉理解中一个更深层的矛盾如何在变化的观测条件下保持对世界不变性的把握。第四层序列与动态理解。进入时间维度静态图像变成视频流单帧理解变成时序推理。这一层的核心问题是如何在连续观测中捕捉运动信息并理解随时间展开的行为与事件。典型任务包括多目标跟踪、动作识别与检测、视频分割、事件定位。它们处理的不仅是空间中的“什么”更是时间轴上的“发生了什么”和“将会发生什么”。遥感中也存在这一层级的对应物——多时相作物生长监测、运动目标跟踪——只是目前不在本专栏的聚焦范围内。第五层生成与交互。这是视觉智能最外延的一层。核心问题从“理解已有的”转向“创造未有的”和“在环境中行动”。典型任务包括图像与视频生成扩散模型、GAN、图像编辑与补全、视觉导航、具身智能。这一层的根本矛盾不再是感知准确度而是生成质量、可控性与交互效率。遥感领域的超分辨率重建、云去除、图像翻译可以归入这一层但它们更多是工具性的而非本专栏要深挖的核心。这五个层级并非彼此孤立。几何重建可以为语义解析提供三维先验语义信息也可以显著提升跨模态匹配的稳健性序列理解往往依赖前两层提供的空间与语义表征而生成模型正越来越多地反过来服务于感知任务如数据增强、域适应。但承认它们之间的层级差异意味着在研究某一个具体模型时我们可以更清晰地追问这个模型究竟在解决哪个层级的根本矛盾它的设计中有多少复杂度是为了应对本层级独有的挑战又有多少是可以跨层级迁移的一般性智慧这种追问正是本文贯穿始终的分析方法。