基于衍射深度神经网络的全光神经网络仿真技术研究报告
▒▒本文目录▒▒摘要一、技术背景1.1 研究动机1.2 理论基础二、实现方法2.1 网络架构设计2.1.1 整体网络架构2.1.2 传播层propagation_layer2.1.3 调制层modulation_layer2.2 光学参数配置2.3 数据预处理2.4 探测器布局2.5 训练策略三、运行结果分析3.1 基准模型性能3.1.1 小批量数据集实验3.1.2 完整数据集实验3.2 混淆矩阵分析3.2.1 仅相位调制模型的混淆矩阵3.2.2 相位振幅调制模型的混淆矩阵3.3 网络层数影响分析3.4 预测结果展示3.4.1 输入光场与成像光强对比3.4.2 典型预测案例3.5 传播过程可视化3.6 改进方案实验结果3.6.1 振幅调制增强3.6.2 复数ReLU激活函数3.6.3 非相干光传播实验3.6.4 可学习传播距离实验3.7 模型复杂度分析四、讨论与总结4.1 主要发现4.2 技术优势4.3 技术挑战4.4 未来展望参考文献五、程序开发摘要本研究针对全光神经网络Optical Neural Network, ONN的仿真实现进行深入探索。基于衍射深度神经网络Diffractive Deep Neural Network, D²NN理论框架采用Python与PyTorch构建完整的仿真系统并将其应用于MNIST手写数字识别任务。通过系统性的实验研究本项目在标准相位调制模型上实现了93.5%的分类准确率超过原始论文的91.75%在引入复数ReLU激活函数后准确率进一步提升至97%。本报告详细阐述了网络架构设计、光学参数选择、训练策略优化以及多种改进方案的实验验证与性能分析。关键词全光神经网络衍射深度神经网络相位调制MNIST分类菲涅尔衍射一、技术背景1.1 研究动机传统神经网络主要依托GPU平台进行训练与推断存在能耗高、速度受限等问题。近年来研究者提出了一种基于光波衍射与相位调制的新型神经网络架构——衍射深度神经网络D²NN该架构利用光波的物理传播特性实现神经网络的计算功能在推断任务中具有低能耗、近光速处理的独特优势。1.2 理论基础D²NN的核心思想是将神经网络的计算过程映射到光波的物理传播过程中。具体而言传播层Propagation Layer模拟光波在自由空间中的传播由菲涅尔衍射理论决定调制层Modulation Layer通过相位调制片和振幅调制片对光场进行调制成像层Imaging Layer将最终光场转换为分类结果该架构利用光的波动特性通过可学习的相位参数实现类似神经网络权重的功能使光波在传播过程中完成信息处理。二、实现方法2.1 网络架构设计2.1.1 整体网络架构下图展示了全光神经网络的整体架构网络由相干光源照射输入图像开始经过多层传播层和调制层的交替作用最终在成像平面上形成光强分布根据预设的探测器区域进行分类判断。2.1.2 传播层propagation_layer传播层采用菲涅尔传递函数Transfer Function, TF方法模拟光波在自由空间中的传播过程。传播前后光场变化如下左图原始输入光场 |右图传播后的光场分布可以清晰看到自由空间传播的卷积效应导致图像出现一定程度的模糊和衍射条纹。2.1.3 调制层modulation_layer调制层是实现光场调控的核心单元包含可学习的相位参数和振幅参数。下图展示了训练后的调制参数分布相位调制参数振幅调制参数这些参数通过网络训练自动学习得到用于控制光波的传播路径实现信息处理功能。2.2 光学参数配置基于Nyquist采样定律和菲涅尔数分析本研究采用以下光学参数参数符号数值说明采样数M, N250每个轴的采样点数波长λ0.5 μm相干光波长照明区域L0.2 m计算区域边长光阑半宽w0.051 m光透射区域半宽传播距离z100 m层间传播距离参数选择依据w参考计算傅里叶光学教材预设L根据Nyquist定律确定采样范围M效率与性能的折衷选择更大的M可减少混叠效应z保证足够衍射现象的同时避免图像过度模糊2.3 数据预处理针对MNIST数据集设计了专门的光场预处理流程预处理步骤尺寸重采样将原始28×28图像重采样至( 2 w ) × ( 2 w ) (2w) \times (2w)(2w)×(2w)大小空间嵌入将图像嵌入至L × L L \times LL×L的方形区域内统一入射光场形状标签转换将数字标签转换为10维单位向量2.4 探测器布局成像平面采用非均匀布局的10个探测器区域探测器布局示意图 --------- | 0 | 1 | 2 | 第一行数字0, 1, 2 --------- | 3 | 4 | 5 | | | 6 | | 第二行数字3, 4, 5, 6 --------- | 7 | 8 | 9 | 第三行数字7, 8, 9 ---------2.5 训练策略采用端到端的训练方式损失函数均方误差损失MSE Loss优化器Adam优化器学习率0.003批大小128训练轮数6轮全数据集或20轮小批量数据集参数初始化相位参数在( 0 , 4 π ) (0, 4\pi)(0,4π)范围内均匀分布初始化三、运行结果分析3.1 基准模型性能3.1.1 小批量数据集实验使用MNIST前2%数据1000训练200验证200测试参数设置为lr0.003, epochs20, batch_size128训练轮次训练损失训练准确率验证损失验证准确率10.119870.10%--50.051285.20%0.059882.50%100.038589.80%0.047285.00%150.030192.50%0.042186.50%200.025595.90%0.039787.50%测试集准确率90.50%最高达92.5%3.1.2 完整数据集实验使用完整MNIST数据集50000训练10000验证10000测试参数设置为lr0.003, epochs6, batch_size128训练轮次训练损失训练准确率验证损失验证准确率10.085678.45%0.078980.12%20.052385.67%0.049886.34%30.039889.12%0.038589.78%40.032191.23%0.031291.56%50.027892.15%0.026892.89%60.024392.86%0.022593.64%测试集准确率92.65%验证集最高达93.5%与原始论文的91.75%相比本实现取得了更优的结果。3.2 混淆矩阵分析3.2.1 仅相位调制模型的混淆矩阵3.2.2 相位振幅调制模型的混淆矩阵主要误分类模式分析数字3、5、8之间存在较多混淆形态相似数字4和9存在一定混淆顶部结构相似数字0和6存在少量混淆圆形结构相似3.3 网络层数影响分析在固定其他参数的条件下系统性地研究网络层数对分类性能的影响网络层数测试准确率参数量训练时间1层8.5%125,000~10s2层63.5%250,000~20s3层87.5%375,000~30s4层89.0%500,000~40s5层90.5%625,000~50s8层92.0%1,000,000~80s12层92.5%1,500,000~120s分析结论1-3层时准确率随层数增加显著提升表明网络需要足够的深度来学习复杂的光场变换3-5层时准确率提升趋于平缓边际效益递减5层以上时准确率提升有限且训练成本和物理实现难度显著增加推荐配置5-8层为性能与复杂度的最佳平衡点3.4 预测结果展示3.4.1 输入光场与成像光强对比入射光场分布成像光强分布左图为输入的MNIST数字图像右图为经过网络传播后在成像平面上形成的光强分布。可以看到第一个探测器区域的光强明显最强因此预测结果为数字0。3.4.2 典型预测案例案例一数字5的预测输出向量[0.1584, 0.1126, 0.1083, 0.1370, 0.1285, 0.8973, 0.1393, 0.1145, 0.2016, 0.1920]预测结果5第6个分量最大为0.8973案例二数字3的预测输出向量[0.1320, 0.1467, 0.2757, 0.6138, 0.3394, 0.4097, 0.3318, 0.1327, 0.2697, 0.1574]预测结果3第4个分量最大为0.6138案例三数字8的预测输出向量[0.0817, 0.1322, 0.1069, 0.3428, 0.1222, 0.1302, 0.0683, 0.0961, 0.8899, 0.0956]预测结果8第9个分量最大为0.8899案例四数字4的预测带振幅调制输出向量[0.0813, 0.1146, 0.2029, 0.3622, 0.7564, 0.1387, 0.0544, 0.0728, 0.2183, 0.4007]预测结果4第5个分量最大为0.7564案例五数字9的预测带振幅调制输出向量[0.0088, 0.0123, 0.0308, 0.0656, 0.1741, 0.0357, 0.0339, 0.3735, 0.0609, 0.9047]预测结果9第10个分量最大为0.90473.5 传播过程可视化传播过程调制效果展示了光波传播过程的效果展示了随机相位调制后传播的光强分布。3.6 改进方案实验结果3.6.1 振幅调制增强在相位调制基础上引入振幅调制网络输出变为u o u t u i n ⋅ A ⋅ exp ( j ⋅ 2 π ⋅ ϕ ) u_{out} u_{in} \cdot A \cdot \exp(j \cdot 2\pi \cdot \phi)uoutuin⋅A⋅exp(j⋅2π⋅ϕ)实验结果对比模型类型测试准确率验证准确率参数量仅相位调制92.5%93.5%1.25MB相位振幅调制93.4%93.9%2.50MB分析振幅调制带来约1%的准确率提升但参数量翻倍物理实现复杂度也相应增加。3.6.2 复数ReLU激活函数引入复数ReLU激活函数CReLU ( z ) ReLU ( Re ( z ) ) j ⋅ ReLU ( Im ( z ) ) \text{CReLU}(z) \text{ReLU}(\text{Re}(z)) j \cdot \text{ReLU}(\text{Im}(z))CReLU(z)ReLU(Re(z))j⋅ReLU(Im(z))实验结果模型类型测试准确率验证准确率训练准确率无激活函数92.5%93.5%92.86%复数ReLU96.98%97.01%98.80%典型训练输出Epoch [6/6], Training Loss: 0.0046, Training Accuracy: 98.80%, Validation Loss: 0.0059, Validation Accuracy: 97.01% Test Accuracy: 96.98%分析复数ReLU带来显著的性能提升准确率从92.5%跃升至96.98%引入的非线性特性有效增强了网络的表达能力局限性物理实现困难目前尚难以找到适合的光学介质来实现复数激活函数3.6.3 非相干光传播实验采用非相干光源进行实验测试准确率仅达到约58%。根据理论分析这是因为非相干光缺乏负值运算能力极大地限制了网络的表达能力。3.6.4 可学习传播距离实验尝试将传播距离z设为可学习参数实验发现高学习率z值剧烈波动准确率在10%附近徘徊低学习率z值几乎不变无法起到优化作用该方案最终被放弃。3.7 模型复杂度分析指标数值总参数量25,626,850单层调制参数250×250 62,500权重文件大小1.25MB相位调制/ 2.50MB相位振幅单次前向传播时间CPU~50ms单次前向传播时间GPU~5ms四、讨论与总结4.1 主要发现基准性能优越本实现在仅相位调制的基准模型上达到93.5%的验证准确率超过原始论文的91.75%验证了网络架构和训练策略的有效性。层数效应显著网络深度对性能影响显著但存在饱和效应。5层网络已能实现较高准确率继续增加层数的边际效益有限。非线性激活关键引入复数ReLU激活函数将准确率提升至97%表明非线性变换对光学神经网络性能至关重要但物理实现仍面临挑战。振幅调制有助益振幅调制可带来约1%的性能提升但需权衡参数量和实现复杂度。4.2 技术优势低能耗光传播本身不消耗电能仅调制片制造需要能量投入高速度光速传播实现近实时的推断能力并行性可同时处理多个输入信号4.3 技术挑战非线性实现目前尚缺乏便捷实现光学非线性激活函数的介质制造精度多层调制片的高精度制造存在工艺挑战噪声敏感光学系统的噪声可能影响分类稳定性4.4 未来展望探索新型光学材料以实现非线性激活函数优化调制片布局以降低制造难度研究噪声鲁棒性提升方法拓展至更复杂的分类任务参考文献[1] Xing Lin, Yair Rivenson, Nezih T. Yardimci, et al. All-optical machine learning using diffractive deep neural networks. Science, 361(6406):1004-1008, 2018.[2] Wetzstein G, Ozcan A, Gigan S, et al. Inference in artificial intelligence with deep optics and photonics. Nature, 588:39-47, 2020.五、程序开发博主博士研究生️: easy_optics在光学检测领域可提供实验指导、程序开发、申博指导、论文指导。⭐️◎⭐️◎⭐️◎⭐️ · · ·**博 主 简 介**· · · ⭐️◎⭐️◎⭐️◎⭐️♪▁▂▃▅▆▇博士研究生研究方向主要涉及定量相位成像领域具体包括干涉相位成像技术(如**全息干涉☑**、散斑干涉☑等)、非干涉法相位成像技术(如波前传感技术☑相位恢复技术☑)、条纹投影轮廓术(相位测量偏折术)、此外还对各种相位解包裹算法☑相干噪声去除算法☑衍射光学神经网络☑等开展过深入的研究。程序获取、程序开发、实验指导软硬系统开发科研服务申博指导️easy_optics或如下。