目录4.1 System 1 vs System 2的认知架构设计4.1.1 快速感知(System 1)的模型实现4.1.2 审慎推理(System 2)的架构嵌入4.1.3 双系统协同的架构融合4.2 思维链(Chain-of-Thought)的多模态扩展4.2.1 视觉思维链(Visual CoT)的构建4.2.2 自我反思与回溯机制4.1 System 1 vs System 2的认知架构设计4.1.1 快速感知(System 1)的模型实现4.1.1.1 直接视觉特征到文本的自动映射System 1认知机制对应于人类思维的快速直觉反应,在多模态架构中体现为从视觉输入到语言输出的直接前馈映射。视觉编码器提取的特征向量经投影层进入语言模型空间,语言模型基于预训练获得的统计模式立即生成描述性文本。该过程跳过显式推理步骤,依赖参数化知识中的条件反射式关联。注意力机制在此模式下