深度学习篇---预测模型训练过程中涉及的所有“维度”概念以及流程的动态变化

张

张建站

2026/4/19 1:51:31

10分钟阅读

预测模型与分类模型虽然同属监督学习但在输出维度、损失函数形态和评价体系上有本质区别。我们从“回归预测”的视角来拆解训练中涉及的维度概念及其动态演变。一、数学维度流从高维空间到连续实数值的映射预测模型的核心目标是拟合一个连续函数 yf(X)其输出通常是无界的连续实数值如温度、股价、年龄、销量。这与分类模型输出“离散类别概率”有根本不同。以下以房价预测输入房屋属性表格数据Batch Size N为例阶段模块/层名称张量维度变化[Batch, Features]维度含义与预测特有关注点1. 原始输入结构化数据[N, D]特征空间D代表特征数量面积、卧室数、位置编码。这是预测的信息源头。2. 特征工程归一化/分桶[N, D]分布对齐预测模型对数据尺度极度敏感必须将特征缩放到相似量级否则梯度更新会偏向大方差维度。3. 隐层映射全连接层[N, D]→[N, H1]→[N, H2]维度升降通过隐藏层单元数 HH 控制模型容量。不同于CNN压缩空间这里是非线性特征交叉。4. 回归头输出层[N, H_last]→[N, 1]维度坍缩至标量这是与分类最本质的区别。分类输出是[N, C]的向量C个概率预测输出是[N, 1]的单一连续值。5. 结果还原反归一化[N, 1]物理意义还原将归一化后的预测值映射回真实量纲如元、公斤。二、流程变化针对连续值的特殊处理机制预测模型的训练流程中除了通用的前向/反向传播还有几个特有的维度概念需要处理1. 输出维度的物理边界约束问题房价、销量等预测值必须 ≥0≥0。流程干预在输出层后添加激活函数约束。例如使用ReLU强制非负或使用exp(x)确保正值。这会改变输出张量的值域维度。2. 损失函数的空间形态变化分类用的是交叉熵Cross-Entropy计算的是概率分布之间的距离预测用的是均方误差MSE或平均绝对误差MAE计算的是欧几里得空间中的几何距离。MSE Loss维度视角它放大了大误差样本的梯度贡献对离群点敏感。MAE Loss维度视角梯度恒定对离群点鲁棒但在零点不可导。3. 时间维度的引入时序预测特例如果是预测未来如股票价格、天气维度概念会进一步升级输入维度从 2D[N, D]升级为 3D[N, T, D]其中T是时间步长Time Steps。流程变化网络结构变为RNN / LSTM / Transformer引入了隐藏状态Hidden State这一随时间传递的维度。三、分类 vs 预测核心维度差异对照为了更清晰地区分两者这里整理了一个对照表维度对比项分类模型预测模型回归输出张量形状[Batch, Num_Classes][Batch, 1]输出值域[0, 1]概率分布连续实数 (−∞,∞)(−∞,∞)最终激活函数Softmax(归一化指数)Linear / ReLU(恒等映射或截断)核心损失函数交叉熵 (Cross-Entropy)均方误差 (MSE)/平滑 L1评价指标准确率、F1-Score、AUCRMSE, MAE, R², MAPE对异常值的敏感度较低 (仅影响概率微调)极高(会直接拉偏回归线)四、 Mermaid 总结框图下图展示了预测模型训练中数据维度流变与流程特殊处理的协同关系。五、总结预测模型的维度哲学如果说分类是给数据划定疆界找分界线那么预测就是测量数据点与理想函数之间的物理距离。维度收敛目标分类收敛于概率单纯形预测收敛于一维实数轴上的一个点。训练核心挑战不是类别是否分对而是预测值与真实值在刻度尺上差了几格。