DeepGraviLens：用于分类引力透镜数据的多模态架构

汽车作者 / 世界之声 / 2025-07-22 12:14

　　引力透镜是由大质量物体产生的相对论效应，它使周围的时空弯曲。这是天体物理学中一个深入研究的课题，它允许验证理论相对论

　　引力透镜是由大质量物体产生的相对论效应，它使周围的时空弯曲。这是天体物理学中一个深入研究的课题，它允许验证理论相对论的结果，并研究微弱的天体物理物体，否则它们是看不见的。近年来，机器学习方法已被应用于支持引力透镜现象的分析，通过检测与亮度变化时间序列相关的图像组成的数据集中的透镜效应。然而，最先进的方法要么只考虑图像而忽略时间序列数据，要么在最困难的数据集上实现相对较低的精度。本文介绍了一种新的多模态网络DeepGraviLens，该网络将时空数据分为一种非透镜系统类型和三种透镜系统类型。根据所考虑的数据集，它超过了当前最先进的精度结果，从\(\约3%)到\(\约11%)。这样的改进将使在即将到来的天体物理调查中加速对透镜物体的分析，这将利用从Vera C. Rubin天文台收集的pb级数据。

　　在天体物理学中，引力透镜是一种物质分布(例如，黑洞)，能够弯曲透射光的轨迹，类似于光学透镜。这种明显的扭曲是由大质量物体周围的时空几何曲率造成的，这种现象迫使光沿着测地线(即弯曲时空中的最短路径)传播。强引力透镜和弱引力透镜关注的是质量特别大的物体(如星系和黑洞)产生的效应，而微引力透镜关注的是质量较轻的物体(如恒星)产生的后果。本研究提出了一种基于被透镜物体及其随时间演化的强引力透镜自动分类的方法。

　　自动发现和分类引力透镜是天体物理学的主要挑战。正如[1,2,3,4]所显示的，引力透镜系统可能是复杂的、无处不在的，如果没有计算机辅助的数据处理，很难被探测到。现代仪器收集的大量数据使人工检查变得不可行。例如，Vera C. Rubin天文台预计将收集pb级的数据[5]。

　　此外，强透镜效应涉及到重大的天体物理问题:研究太微弱而无法用现有仪器分析的大质量天体;描述宇宙的几何、内容和运动学;研究星系形成过程中的质量分布[1]。在引力透镜的研究中，发现只是第一步，但却是最基本的一步。寻找强引力透镜效应的证据可以验证和推进现有的天体物理理论，如广义相对论[2]，并支持旨在模拟引力透镜效应对特定实体的影响的专门研究，如虫洞[2]、辛普森-维瑟黑洞[3]和爱因斯坦-高斯-博内黑洞[4]。

　　引力透镜发现任务将由图像和时间序列组成的时空观测作为输入，并将每个观测与一个类别相关联(例如，“透镜”，“无透镜”，“透镜星系”……)。根据具体的实验，从电磁场的特定区域(例如，可见光和红外[6]，紫外线[7]，绿色，红色和近红外[8])获得图像。时间序列也收集在特定的电磁场区域。它们通常描述亮度随时间的变化(例如[8,9])，其采样频率取决于采集仪器的技术限制。一般来说，它们可以是多元时间序列[10,11]。观察结果可以是真实的(即由实际仪器收集的)，也可以是模拟的(即由复制真实仪器特征的软件系统生成)。

　　过去已经介绍了几种发现引力透镜的方法和工具。最初，观测结果是在没有计算机辅助的情况下进行分析的[12]。即使在计算机科学出现之后，观测数据最初也是在没有自动分类系统的情况下进行处理的[13,14,15]。最近，机器学习(ML)方法已经被利用。文献[16,17]使用卷积神经网络(cnn)对引力透镜图像进行分类，[18]利用贝叶斯方法对图像数据进行分类，[8]采用多模态方法对deepplenstronomy模拟器生成的四个模拟数据集中的时空数据进行分类[19]。其中，[8]对引力透镜数据进行了分类，对图像进行了CNN处理，对亮度时间序列进行了LSTM (long - short-term memory)网络处理，然后将两个分支的输出进行融合，得到了48.7 ~ 48.7的测试精度。

　　然而，最先进的镜头检测系统仍然存在一些局限性。其中一些(如[16,17,18])仅依赖图像而忽略了时域数据，因此无法探测到超新星爆炸等瞬态现象，而超新星爆炸对于估计宇宙的膨胀速度非常重要[20]。这项工作[8]考虑了时空数据，但提出的DeepZipper多模态(图像+时间序列)多类别(“无透镜”、“透镜星系”、“透镜ia型超新星”、“透镜核心坍缩超新星”)分类架构在最具挑战性的模拟数据集上显示出相对较低的精度。此外，模拟数据集，如[8]所示，每个测试集包含4000个样本，是经过8倍的数据扩充后得到的。因此，扩充前的唯一样本数量为500，使得某些子类(如“SN-Ia”)的测试样本数量较低(14个样本)，并且对测试集准确性结果产生很高的不确定性。

　　[8]的作者最近提出了DeepZipper II架构[20]，该架构利用了与[8]类似的多模态(图像+时间序列)二元(“透镜超新星”vs“其他”)分类架构，在真实和模拟数据的混合中实现了93%的准确率。这项工作[21]适用于图像时间序列(即图像序列)，但分类器仅适用于已知存在超新星的观测，以推断是否发生了透镜效应。

　　多模态分类架构已经在天体物理学以外的许多领域得到了应用(例如，遥感和医学)[22,23,24]。只有少数方法考虑单幅图像和一个或多个时间序列的组合[25,26,27]，大多数方法类似于[8,20]中提出的架构。其他方式也被考虑过(例如，视频和文本)，但这些输入不同于与天体物理观测相关的输入，因此这些架构不能延续引力透镜发现任务。第2节简要介绍了它们。

　　最后，由于任务的性质，对重力透镜自动分类系统的评估提出了具体的挑战。在真正的天体物理观测中，引力透镜，尤其是透镜超新星，是极其罕见的，只有少数发现已经被科学界证实。地面真实数据(即经过验证的发现)的极度稀缺对分类算法的训练和测试都提出了挑战，并促使使用模拟器来创建合成数据集。这样的数据集可以用于训练、验证和测试分类器。然而，当涉及到真实数据时，只能通过将候选透镜现象提交给专家判断进行验证来进行后验评估。

　　本文提出了一种用于强引力透镜多模态数据分类的新架构——DeepGraviLens。所考虑的类别涉及瞬态和非瞬态现象，这项研究表明，DeepGraviLens不仅在寻找引力透镜方面优于其他时空网络，而且在寻找引力透镜超新星方面也优于其他时空网络，引力透镜超新星是天体物理学界特别感兴趣的稀有物体。这些贡献可以总结如下:

　　我们介绍了DeepGraviLens的架构，该架构将真实或模拟天体物理观测的时空数据输入，并在输出中对每个时空样本进行多类单标签分类。DeepGraviLens利用三个独立训练的互补子网络，并通过支持向量机的最后阶段将它们的输出结合起来。三个子网络采用不同和互补的方式将图像和时间序列数据结合起来，利用输入数据的局部和全局特征。

　　我们在由20,000个独特示例组成的四个模拟数据集上评估设计的架构，这些数据集分为具有14,000个样本的训练集(占数据集的70%)，具有3000个样本的验证集(占数据集的15%)和具有3000个样本的测试集(占数据集的15%)。我们将DeepGraviLens的预测结果与DeepZipper网络[8]以及从2类扩展到4类的DeepZipper II[20]版本获得的结果进行了比较。在每个测试集上，DeepGraviLens的精度提高幅度从最佳版本的DeepZipper到，并显著减少了相似类别之间的混淆，这是引力透镜分类的主要问题之一。

　　我们还将DeepGraviLens与STNet[25]进行了比较，STNet是最近在遥感应用中提出的一种时空多模态神经网络，其精度的提高范围从至。

　　最后，我们证明了DeepGraviLens能够在真实的暗能量调查(DES)数据中探测到引力透镜的存在，特别是引力透镜的超新星[28]。

　　在透镜现象分类方面所获得的改进将使我们能够更快、更准确地描述未来的真实观测结果，例如Vera C. Rubin天文台的观测结果，并将为发现透镜超新星开辟道路。透镜超新星由于其罕见、空间分布分散、观测寿命相对较短，是最难探测的天体之一[28,29,30,31,32]。

　　本文的其余部分组织如下:第二节综述了相关工作;第3节描述了DeepGraviLens的数据集和架构;第4节描述了采用的评价方案，并给出了定量和定性结果;最后，第五节总结了本文的结论，并对未来的工作进行了概述。

　　本节概述了自动引力透镜分析和多模态深度学习领域的先前研究，这是本工作的基础。

　　对引力透镜现象进行分类是一项具有挑战性的任务，也是许多研究的主题。本节主要讨论数据驱动技术，而不是侧重于设计能够解释观测数据的数学模型的分析方法。它考虑了透镜超新星的特殊情况，作为瞬态现象的代表，因为它们对天体物理学界特别有趣。表1列出了一些最新和最有前途的方法。

　　在引力透镜搜索中，寻找透镜超新星(LSNe)具有挑战性，因为它们是罕见且快速瞬变的现象。在[48]中已经深入分析了与稀有性相关的主要挑战。在几种寻找透镜的方法中，一个共同的问题是缺乏包含足够数量的真实引力透镜观测的大数据集。因此，这项工作[40]提出了一个包含模拟透镜和真实非透镜数据的训练集，这是一种广泛使用的策略。一些研究[20,21,35]也在真实数据上测试了他们的训练模型，并提出了一些候选引力透镜。

　　表1本表总结了寻找重力的主要方法使用数据驱动技术的Nal镜头

　　第二个主要挑战是考虑超新星的瞬态性质。超新星的爆炸导致其亮度达到峰值，亮度首先增加，然后在几个月内以较慢的速度下降[49]。[8,20]说明了在LSNe情况下考虑亮度时间序列的好处，[21]使用图像时间序列考虑亮度变异性。[8]证明了从图像时间序列中提取亮度时间序列的理由，注意到在17个具有代表性的透镜和非透镜天体亚类中，一个序列中图像之间的差异可以忽略不计。因此，它们的输入由代表性图像和归一化亮度时间序列组成。相反，这项工作[21]使用图像时间序列来寻找透镜超新星，并在模拟数据上显示出有希望的结果。然而，它只考虑了两类:非透镜超新星和透镜超新星，而[8]也考虑了其他天体物理对象，包括透镜和非透镜，使得[21]使用的输入是他们的一个特殊情况。

　　[18]中描述的工作应用贝叶斯方法对非瞬态现象的高分辨率图像进行分类，以重现人类专家进行的分类。然而，高分辨率的图像并不总是可用的，而且人类的分类(“绝对不是一个镜头”，“可能是一个镜头”，“可能是一个镜头”，“肯定是一个镜头”)本质上是不精确的，并且容易因人类分类器而产生偏见。

　　贝叶斯方法的替代方法[46]依赖于特定领域的特征，并使用支持向量机(SVM)分离透镜和非透镜系统，支持向量机的输出由人类专家评估。在最好的情况下，分类器在模拟数据上获得0.95的AUC，但是手动定义特征的存在使得这种方法不如深度学习方法一般。特别是，它利用了特定的镜头硬编码特征，例如特定颜色的普遍性，这很难推广到多标签分类任务或瞬态现象相关的场景。

　　基于深度学习的方法主要依赖于卷积神经网络(cnn)，如[16,40]和[50]中所示的二元分类器，它们不考虑时域信息，也不支持透镜系统的细粒度分类。这项工作[35]利用了CNN架构，并在真实数据上进行了测试，在一个不关注LSNe的二元分类问题上报告了良好的结果。作者观察到，在他们的实验中，CNN的表现“很大程度上依赖于镜头模拟的设计和训练的负面示例的选择，而很少依赖于网络架构。”相反，研究[8,20]认为，架构设计可以导致结果的巨大改进，报告称，在瞬态现象数据上，多模态架构优于单模态cnn。工作[44]描述了一种基于cnn的算法，该算法只在模拟数据上进行训练和测试，准确率达到98%，并找到了输入图像中引力透镜的位置。然而，分类器是二元的，不考虑LSNe。[45]中提出了一种有趣的方法，该方法侧重于模拟数据的二元分类，并提出了一个网络委员会，从而对单个网络进行了改进。

　　作为监督方法的替代方法，[39]定义了一种无监督的二值分类方法，该方法首先使用自编码器对图像进行降噪(降低其分辨率)，然后使用第二个自编码器从去噪图像中提取特征，最后利用贝叶斯高斯混合(BGM)对提取的特征进行聚类。然而，这种方法需要人工干预，以便将标签关联到与透镜对象相对应的集群。

　　一些专注于寻找其他引力透镜的瞬态现象，如类星体[8]的工作表明，与超新星相比，类星体的亮度在几年的时间尺度上发生变化，因为它们不是爆炸现象。由于这个原因，许多针对透镜类星体的研究没有使用时间序列信息。[43]利用了不同波段的图像幅值，这是一种特殊的方法，需要自适应才能应用于LSNe搜索。[36]也专注于寻找透镜类星体，但目的是使用本质上基于规则的管道来寻找四透镜类星体。虽然这种方法对特定的应用程序是有效的，但也应该对其进行修改，以处理更一般和更复杂的情况。

　　与二元方法不同，DeepZipper[8]将问题作为一个多类单标签分类任务，用于与亮度变化时间序列相关的图像组成的数据集。为了分析图像和时间序列数据，作者提出了一个多模态网络，由CNN和LSTM组成，然后将其输出融合。将得到的系统应用于四个不同天文调查(DES-wide、LSST-wide、DES-deep和DESI-DOT)对应的模拟数据集。这种方法虽然相对简单，但在所有四个数据集上都取得了相对较好的结果，精度范围从到。DeepZipper II[20]是DeepZipper的一种进化，它对网络进行了微小的改变，将问题作为一个二元分类任务(“LSNe”vs“other”)而不是一个多类分类任务，并在部分基于真实数据的新数据集上执行测试。它达到了对DES数据的准确性和假阳性率。在DES调查中发现的三颗新的候选透镜超新星被提供给天体物理科学界进行确认。

　　与DeepZipper类似，DeepGraviLens将问题作为多类单标签分类任务，对相同类型的类和数据集进行分类。与以前的方法相比，它采用了更有效的单峰网络和更先进的融合技术，提高了处理两种模式之间共享信息的有效性。

　　在最不同的学科中，一些现象的特征是异构数据，这些数据提供了关于被调查主题的互补信息。多模态深度学习在需要综合分析多种数据类型(如图像、视频和时间序列)的领域中已经证明了它的有效性。该调查[22]概述了到2017年多模式深度学习的进展和趋势，并记录了医学[51,52,53]、人机交互[54]和自动驾驶[55,56]等领域的使用情况。最近的调查[57]讨论了图像与文本[58,59]、视频与文本[60,61]、文本与音频[62,63]相结合的几种应用。一些应用依赖于生理信号进行行为研究，如面部识别[64,65,66]。在医学领域，[67]概述了人工智能在肿瘤学中的应用，并展示了多模式深度学习的好处。该工作[68]通过图像和数值数据的综合分析来诊断宫颈发育不良。[69]使用多模态深度学习对来自不同来源的文本数据进行恶意软件分类。[70]利用图像和文本来检测模因中的仇恨言论。[71]使用多个机器人传感器(如摄像头、触觉和力传感器)进行对象操作。

　　从体系结构的角度来看，异构输入的处理可以通过单独分析单个数据类型，然后融合不同分支的结果以产生输出(后期融合)，通过堆叠输入，将它们一起处理(早期融合)，或通过在中间阶段引入融合(中期融合)来执行[22,72]。该调查[23]概述了一般用于多模态数据融合的深度学习方法，而[72]则侧重于生物医学数据融合。这项工作[57]将比较范围扩大到深度学习之外，并对比了多模态分类任务中使用的替代方法，包括svm[73]、rnn[66, 74]、cnn[75, 76]甚至gan[77]。单幅图像与时间序列的结合已经被少数作品考虑，主要是在遥感[78]和医学[79]领域。这显然类似于视频和时间序列组成的数据分类问题[80,81,82]。然而，与视频的情况不同，单个图像和时间序列的组合不需要解决模态之间依赖时间的同步、连接和交互[83]。另一个类似的例子是图像和文本的联合分析。然而，对于数字信号，文本处理提出了不同的挑战，采用了不同的方法[84]。另一个相关问题是对图像时间序列(即图像序列)进行分类，如在若干遥感应用中所做的那样(例如[85,86,87])。这个任务也被[21]用于引力透镜数据，当图像在时间序列中变化明显时，它最适用。相反，在引力透镜数据应用中，如本文所述，该系列中的图像具有很小的变化。在这种情况下，使用时间序列优于使用图像序列，可以看作是从图像序列中提取相关特征[8,20]。

　　摘要

　　1 介绍

　　2 相关工作

　　3.数据集和方法

　　4 e

　　估值

　　5 有限公司

　　结论和未来的工作

　　数据和材料的可用性

　　代码的可用性

　　笔记

　　参考文献

　　致谢

　　作者信息

　　道德声明

　　搜索

　　导航

　　#####

　　透镜物体分类任务的输入包括四幅图像和四个亮度变化时间序列，它们共同代表一个天体物理观测。griz测光系统广泛应用于CCD相机[88]，每个波段提供一幅图像和一个时间序列。在这个系统中，g波段以绿色为中心，r波段以红色为中心，i波段为近红外波段，z波段为红外波段。

　　图1

　　DeepGraviLens流程包括四个步骤:(1)将输入馈送到三个独立的网络(LoNet, GloNet和MuNet);(2)将三个网络的输出连接起来;(3) reject网络接收连接后的输出，(4)输出一个预测类

　　每个输入都被标记为四个类别之一:“No Lens”(无透镜系统)，“Lens”(星系-星系透镜)，“LSNIa”(被透镜的物体是ia型超新星)和“LSNCC”(被透镜的物体是核心坍缩超新星)。第4.2节展示了输入样本的各种示例以及DeepGraviLens对它们的分类。

　　通过仿真构建了四个不同的数据集(DESI-DOT、LSST-wide、DES-wide和DES-deep)，并用于训练和评估DeepGraviLens。它们的构造细节与文献[8,19,89]中的相似。每个数据集模拟当前或下一代的宇宙调查，并以不同规格的图像和相关的时间序列为特征。

　　DESI-DOT数据集模拟了暗能量相机(DECam)[90]的观测结果，并反映了[91]中报道的DES宽视场调查的真实观测条件。曝光时间是一个影响图像质量的模拟参数(越高越好)，设置为60秒。LSST-wide数据集模拟使用LSSTCam相机获取的LSST调查图像[92]。模拟参数根据调查第一年的条件估算，暴露时间设为30 s[93]。DES宽数据集模拟了DECam的图像，并使用了DES宽视场调查的真实观测条件，但曝光时间为90秒。DES-deep数据集也复制了DECam的图像，但其特征是根据DES SN程序[94]模拟的，曝光时间设置为200s。

　　由于使用四波段griz光度系统，每张图像有4层。所有四个数据集的图像大小为像素。时间序列的长度取决于模拟仪器的技术限制。DESI-DOT、LSST-wide和DES-deep时间序列每个波段包含14个样本，DES-wide每个波段包含7个样本。

　　对于每个数据集，定义了17个天体物理系统，并按照文献[8]的建议将其分为“No Lens”、“Lens”、“LSNIa”和“LSNCC”四类。四个类的样例随机生成:每个类覆盖每个数据集，17个子系统在所有数据集中的分布相同。每个数据集都包含元素，分为包含样本的训练集(train set)、包含样本的验证集(validation set)和包含样本的测试集(test set)。

　　从亮度时间序列中提取两个统计量(均值和标准差)作为输入。这样的派生数据具有物理意义。例如，预计空的天空在四个波段中具有大致相同的平均值和较高的标准偏差(因为波动是随机的)。非透镜恒星的特征是标准偏差低，因为其平均值近似为常数。即使它们表现出短暂的行为(例如，超新星的爆炸)，亮度变化也会因距离而减弱。相反，透镜体预计会有更高的标准偏差，因为当它们表现出瞬态行为时，它们的亮度会被透镜放大。相反，其他统计量不被考虑，因为它们不能与可解释的物理行为联系起来。在第4节描述的消融研究中，对这些衍生输入的贡献进行了量化。

　　图1展示了DeepGraviLens的多阶段多模态推理管道。它由三个子网络(LoNet, GloNet和MuNet)组成，它们的输出(即最终激活函数之前的4个特征)使用SVM进行连接和集成。在这种情况下，连接是将三个子网端到端的长度为4的输出连接起来，以获得长度为12的向量的过程。反过来，Lonet和MuNet依赖于单峰子网络，专注于图像和时间序列中的局部或全局特征。表2总结了三种网络的特点。Glonet利用图像和时间序列数据的结合，使用早期融合将两者合并。这种方法强调了多模态输入的全局特征。Lonet侧重于不同数据类型的局部特征:图像和时间序列通过两个独立的子网络，然后应用中间融合。最后，MuNet利用FC子网络和CNN并行提取图像的局部和全局特征，然后进行中间融合。下一节将介绍三种建议的多模式网络。

　　表2三个子网追求的目标不同Net强调全局特征，采用早期融合;罗Net强调局部特征，采用中间融合;MuNet同时提取全局和局部图像特征

　　图2显示了Lonet子网的体系结构，表3总结了其特性。它包括两个分支，一个用于图像(通过CNN处理)，一个用于时间序列(通过门控循环单元递归神经网络处理，现在称为GRU)。该网络由若干层组成。在对图像和时间序列进行处理后，变压器(类似于[25])将GRU和CNN的特征向量的拼接、时间序列的均值和标准差作为输入。最后，两个顺序组件包含完全连接的层、dropout、批处理规范化和ReLU激活函数。最后一个顺序组件生成模型的输出。这种结构类似于ZipperNet[8]，但用GRU模块取代了LSTM[95]模块，GRU模块具有较小的隐藏单元大小[96]和批处理归一化。GRU相对于LSTM的优势已经在几个应用中得到了证明[97,98,99,100,101]。在考虑的数据集中，较短的时间序列使得GRU优于LSTM，因为前者的训练参数较少，因此泛化能力更好。

　　图2

　　Lonet架构。时间序列由GRU模块处理，图像由CNN处理。两个输出连同统计数据被融合并作为输入馈送到最终变压器模块

　　使用CNN从图像中提取特征，将重点放在连续像素(即图像的小区域)上，如几项研究[102,103,104]所示。变压器的使用有利于从CNN和GRU子网络中提取最重要的特征和上下文信息。

　　表3 Lo总结网络神经网络结构显示其层，输出形状和参数的数量

　　图3显示了Glonet子网的体系结构，表4总结了其特性。与LoNet不同，GloNet采用早期融合，并依赖于应用于平坦输入的完全连接子网。该网络由多个线性层组成，具有ReLU激活函数、批处理归一化和dropout。

　　图3

　　Glonet架构。输入数据被(1)平面化，(2)串联，(3)馈送到FC模块

　　该网络由两部分组成(Sequential: 1-1和Sequential: 1-2)。第一部分输出一个特征向量，作为SVM集成时的输入，第二部分生成模型输出。在这个架构中，图像、时间序列、均值和标准差被连接起来，并作为输入输入到第一个线性层(线性:2-1)。这种方法是对LoNet的补充:它预先结合原始时间序列和原始图像，而不是合并GRU和CNN模块预处理后得到的特征。表4还显示了参数的数量比LoNet中的要多。有更多的参数可以从更复杂的模式中学习，这弥补了卷积层的缺失。

　　表4全球概况网络神经网络结构显示其层，输出形状和参数的数量

　　图4显示了MuNet子网的体系结构，表5总结了它的特性。它使用两个并行分支来处理图像:一个CNN和一个FC子网。时间序列的处理方式与LoNet相同。在该网络中，与LoNet的情况不同，子网络结果仅使用完全连接的网络进行融合，这依赖于ReLU激活函数、批处理归一化和dropout层。与LoNet相比，MuNet增加了应用于图像的FC模块，可以同时提取局部和全局特征。

　　图4

　　MuNet架构。当Lonet仅使用CNN处理图像时，MuNet同时使用CNN和FC组件

　　由于图像的尺寸较小，后者可能提供相关的贡献。为了避免过拟合，FC子网的参数数量比GloNet少。总的来说，参数的数量与LoNet相似。

　　表5 MuNet神经网络架构概述，显示了其层数、输出形状和参数数量

　　本研究中介绍的三种多模态网络从数据中提取不同的信息，强调局部特征、全局特征或两者的结合。为了充分利用这些网络提供的互补信息，可以采用集成方法。表6详细介绍了本研究中使用的集成方法及其相关的实验参数。对于每种方法的每个参数组合，分别在训练集和验证集上计算精度。然后根据最高验证集结果选择最佳参数组合，最后在测试集上计算精度。此外，还进行了消融研究，以评估仅使用三种网络中的两种时最佳集成方法的性能。

　　表6 LoNet、GloNet和MuNet聚合决策的集成方法实验参数

　　DeepGraviLens的训练过程分为两个阶段。在第一步中，使用相同的输入分别训练LoNet、GloNet和MuNet。第二阶段包括训练支持向量机，它利用在应用LoNet, GloNet和MuNet子网络的最终激活函数之前获得的值作为输入。LoNet, GloNet和MuNet最多训练500次，早期停止耐心设置为20次。在这两个阶段，最好的模型是在验证过程中获得的精度最高的模型。验证过程旨在通过评估验证集上的性能来选择组件和整体体系结构的最佳配置。它由几个阶段组成。对于单峰网络，在验证集上获得最高精度值的模型是性能最好的模型。然后，使用先前选择的预训练单峰模型初始化多峰网络单峰分量的参数，并对每个多峰网络进行训练。性能最好的模型是在验证集上获得最高精度值的模型。最后，支持向量机集成阶段依赖于之前选择的模型，验证精度最高的模型为最佳集成模型。

　　本节报告了DeepGraviLens对3.1中介绍的数据集的定量和定性评价。

　　对于每个准确度结果，计算一个相当于1个标准差的置信区间，以考虑到测试集的有限大小。C.R.表示置信区间的半径[106]:

　　（1）

　　其中a为测试集中的平均精度(缩放到[0,1])，n为测试集中的样本数。

　　本节介绍了DeepGraviLens在第3.1节中描述的四个数据集上的性能分析结果。为了评估由提议的架构引起的改进，[8]的方法被用作基线，因为它是唯一使用与我们相同类别的数据集的研究。准确性被用作性能指标，因为数据集是平衡的。此外，使用表7所示的时间和图像模态与其他两个多模态网络进行比较，并与表8所示的七个单模态网络进行比较。DeepZipper II[20]和STNet[25]已经适应使用四个类，而不是原来的两个类。

　　在最后集成阶段之前，还对子网络进行了烧蚀实验，以验证它们的贡献。

　　以下4.4.1预测性能

　　表7给出了四个考虑的测试集的精度结果。对于DESI-DOT、LSST-wide和DES-deep数据集，测试集的准确性相似，而对于更复杂的DES-wide数据集，测试集的准确性则有所下降。在所有情况下，准确率都比DeepZipper基线和目前最好的方法有所提高。这种改进不仅在DeepGraviLens中被观察到，而且在Lonet和GloNet中也被观察到，使它们成为最先进方法的可行替代方案。此外，简单网络GloNet的性能与DeepZipper和DeepZipper II相似。

　　表7精度- DeepGraviLens的精度与使用最先进的多模态方法获得的最佳结果的比较

　　表8单峰网络和DeepGraviLens的比较——表中显示了Deep Zipper、STNet和DeepGraviLens中使用的不同单峰网络在图像和时间模态上的性能

　　除了Lonet和MuNet, EvidentialLonet和EvidentialMuNet网络也进行了实施和测试。这些网络利用了[107]中提出的基于证据的后期融合方法，该方法基于与其预测相关的不确定性程度动态加权每种模态的贡献。实验表明，本文提出的中间融合方法优于基于证据的融合方法，平均提高了。

　　图5显示了这四个数据集的混淆矩阵。对于des深度数据集，在“LSNIa”和“LSNCC”之间观察到最大的混淆。在[8]中也发现了类似的，但更为突出的模式。

　　对于DES-wide数据集，类别之间的混淆是相似的，与[8]不同，其中最大的混淆是“LSNIa”和“LSNCC”之间的混淆。这表明DeepGraviLens在区分不同的引力透镜瞬态现象方面更有效，显著减少了与基线的混淆[8]。

　　对于DESI-DOT数据集，类之间的混淆比[8]中提出的要低。最大的混淆是在“无透镜”和“透镜”类别之间，这可以通过一些系统的亮度时间序列的相似性来证明。例如“星系+恒星”系统，一个星系和一颗恒星看起来靠得很近，但没有透镜效应;“星系-星系透镜+恒星”系统，一个星系站在另一个星系前面，产生透镜效应，从观察者的角度来看，一颗恒星看起来离透镜星系很近。

　　对于LSST-wide数据集，最大的混淆是DES-deep中“LSNIa”和“LSNCC”类之间的混淆，类似于[8]中观察到的模式。

　　报告的结果证明，DeepGraviLens可以准确地对所有数据集的样本进行分类，并且相对于比较的方法有显着的性能提高。在DES-wide上的结果显示出显著的改善，减少了透镜超新星类别之间的混淆。这个数据集特别具有挑战性，因为透镜星系由于图像的模拟光学深度而变暗，这取决于模拟仪器的技术特性。此外，时间序列比其他数据集更短，因此包含的信息更少。

　　4.1.2 烧蚀研究

　　表9对SVM与其他集成方法的比较。SVM的使用比最佳多模态网络(MuNet)平均提高了1%，并且在四个数据集中的三个数据集上超过了其他集成方法的性能。考虑到lst -wide数据集，Max的性能优于SVM，但SVM的结果在Max的置信区间内。此外，Max在DES-deep上的精度超出了SVM的置信区间。考虑到所分析的集成方法，对于所有数据集，只有SVM、Fuzzy Ranking[105]和Average在最佳集成方法的置信区间内。然而，Fuzzy Ranking和Average的准确率都明显低于SVM。

　　表9 10种集成方法的精度比较

　　表10给出了多模态子网络的烧蚀实验结果。三个子网络的存在保证了最高的精度，集成一个或两个网络得到的结果往往超出了集成三个网络得到的结果的置信区间。特别地，结合三个网络产生相对于单个网络的范围从至的改进，以及相对于两个网络的组合的范围从至的变化。

　　表10支持向量机集合的消融研究——考虑单个网络时，精度是指不加任何添加而直接应用得到的结果Nal决策级算法

　　在DESI-DOT中，Glonet的贡献主要由其他两个子网络的贡献所主导，因此消除Glonet并不影响精度。这可以通过使用Glonet中的早期融合来解释，它不保留图像的信息，而是立即与时间序列融合。

　　时间序列的均值和标准偏差的引入在整个数据集的准确性上产生了额外的适度的平均改进。与使用输入和的随机森林进行预测相比，DeepGraviLens的准确率从18%提高到。

　　4.1.3 执行时间

　　DeepGraviLens已使用NVIDIA GeForce GTX 1080 Ti进行GloNet, MuNet和LoNet的训练。平均而言，单个数据集的网络训练需要不到3小时。相对于其他网络，SVM的训练时间可以忽略不计。

　　图5

　　a DES-deep、b DES-wide、c DESI-DOT、d lst -wide数据集的混淆矩阵。一般来说，由于采样率低，最大的混淆是在“Lens”和“No Lens”之间，在DES-wide数据集的情况下，在“LSNCC”和“LSNIa”之间

　　4.2.1节给出了DeepGraviLens在四个测试集上获得的一些代表性示例。所有图像都是通过对griz层进行编码得到的，方法如[8]所示。图中g波段显示为绿色，r波段显示为红色，i波段显示为蓝色，z波段显示为灰色。通过计算每个波段图像中心像素与图像背景的和之差，从每个初始图像序列中获得亮度时间序列，再现[8]中提出的方法。

　　第4.2.2节展示了如何将DeepGraviLens应用于真实数据来识别引力透镜现象的存在，也证实了三个透镜超新星候选系统，这是一种非常罕见的现象，[20]报道过。

　　4.2.1 模拟数据

　　图6给出了一个属于LSST-wide数据集中“No Lens”类的真实正面示例。它显示了两颗彼此靠近的恒星，它们表现出球面对称，这表明没有透镜效应。此外，亮度曲线没有一致的变化，表明不存在瞬变现象。

　　图6

　　一个关于LSST-wide数据的正面例子-该数据属于“No Lens”类。这张照片显示了两颗独立的恒星，它们具有球形几何形状，这表明它们没有透镜。此外，右边的曲线显示亮度随时间的变化不一致，这表明不存在瞬变现象

　　图7展示了DESI-DOT数据集中属于“Lens”类的一个真正的正面示例。在该系统中，透镜效应表现为中心体上的环状图案。亮度曲线的平坦性表明不存在瞬变现象，正如预期的那样，因为该系统是由星系组成的，而星系不具有爆炸事件的特征。

　　图7

　　一个关于DESI-DOT数据集的积极例子-该数据属于“Lens”类。透镜效应在中心体周围的环状图案中是可见的。相反，亮度时间序列的平坦性表明没有瞬态现象(例如，爆炸)，这是预期的，因为涉及的实体是星系

　　图8展示了一个属于DESI-DOT数据集中的“LSNIa”类的真实正面示例。时间序列中的峰值表明存在爆炸的超新星，图像显示出椭圆形状，这表明存在透镜效应。g波段的亮度几乎是平坦的，这是Ia型超新星的特点。Ia型和核心坍缩型超新星在爆炸过程中释放化学元素，并产生不同波长的光子，这些光子被特定波段的传感器探测到。在爆炸期间，具有一定波长的元素的发射在相应的波段内产生暂时的亮度峰值。两种类型的超新星释放的化学元素都可以在g波段观测到，但ia型超新星比核心坍缩超新星释放的物质更少，这使得后者在g波段表现出更明显的峰值。图8中没有这样一个峰，证明了“LSNIa”分类是正确的。

　　相同类型的系统如图9所示，来自DES-wide数据集。在这种情况下，由于采样率较低，没有检测到峰值，从而错过了快速瞬态事件。然而，由于图像中包含的信息，网络正确地对这个例子进行了分类。

　　图8

　　一个关于DESI-DOT数据集的积极例子-该数据属于“LSNIa”类。透镜效应可以从中心天体的椭圆形状中看到，而超新星的存在可以通过亮度时间序列中的峰值来观察，这表明存在爆炸瞬态现象。超新星的类型可以从g波段时间序列的平坦度推断出来

　　图9

　　一个关于DES-wide数据集的正面例子，该数据属于“LSNIa”类。透镜效应是可见的，因为中心的形状是椭圆形的。即使表明瞬态现象存在的峰值不存在，网络仍然能够正确地对数据进行分类

　　图10展示了DESI-DOT数据集中属于“LSNCC”类的一个真正的正示例。在这种情况下，超新星的存在是由亮度时间序列的快速变化来指示的。由于g波段也显示出一个峰值，因此输入被归类为核心坍缩超新星。透镜效应在图像中表现为超新星(绿色物体)，被它前面的星系透镜。绿色证实了在g波段中发射光子的元素的存在，并且由于星系引起的放大效应，物体本身是可见的。

　　图10

　　一个关于DESI-DOT数据集的积极例子-该数据属于“LSNCC”类。在这种情况下，透镜效应是由不同时间曲线的存在(表明超新星的存在)和被星系透镜的绿体所暗示的

　　图11给出了lsst范围数据集中的一个负面示例。该基准属于“LSNCC”类，但被归类为“透镜”，这意味着该模型无法探测到超新星的存在，并将该示例解释为透镜系统，没有明显的瞬态现象。错误的分类是由于低质量的时间序列和模糊的图像。由于背景中围绕恒星的微弱光晕，透镜效应是可见的，但时间序列(错误地)表明没有瞬态现象。超新星爆炸可能在很短的时间内发生，而且亮度的变化可能无法被相机记录下来，这可以解释为什么没有明显的瞬变现象。爆炸后不久，亮度恢复到原来的值，这解释了曲线的平坦性。

　　图11

　　一个关于lst -wide数据的负面例子-该数据属于“LSNCC”类，但已被分类为“Lens”。恒星周围的光晕暗示了透镜效应，而平坦的时间序列表明没有瞬变现象，这导致了错误的分类

　　图12给出了一个来自DES-deep数据集的负面示例，属于“Lens”类，但被归类为“No Lens”。透镜效应在中心天体上是可见的，它有一个光晕。然而，由于图像分辨率较低，这种效果在大多数正面示例中并不明显。此外，多峰的存在并不经常与“Lens”类相关联，并导致错误的分类。

　　图12

　　DES-deep数据集的一个反面例子——该数据属于“Lens”类，但已被归类为“No Lens”。透镜效应是由环绕中心天体的光晕引起的

　　作为最后一个例子，图13显示了DESI-DOT数据集中的模糊图像，分类错误。样品属于“No Lens”类，但被归类为“Lens”。这种混淆主要是由椭圆天体引起的，它与透镜效应相混淆，而它可以代表，例如，非透镜椭圆星系。时间序列是平坦的，所以它们不能帮助区分“有透镜”和“无透镜”系统，因为一些“无透镜”系统也有平坦的时间序列。

　　图13

　　一个关于DESI-DOT数据集的负面例子-该数据属于“无镜头”类，但它已被归类为属于“镜头”类。透镜效应是由椭圆形状引起的，但这种形状也可能表明存在一个非透镜椭圆星系。此外，由于时间序列的平坦性，无法区分“Lens”和“No Lens”系统，因为一些“No Lens”系统也具有平坦的时间序列

　　4.2.2 真实的数据

　　[20]的作者分析了暗能量调查(Y1-Y5)五年期间的真实数据，目的是探测引力透镜超新星。他们确定了三个潜在的透镜超新星系统(编号为691022126,701263907和699919273)，其中两个仅使用Y5的数据就被探测到，这表明超新星可能在那一年爆炸。我们的研究试图使用NoirLab提供的公共数据(脚注1)来重现这样的结果，该数据目前只包括高达Y4的数据，使用在des深度数据集上训练的网络。

　　DeepGraviLens成功地识别出了ID为691022126的透镜超新星，并探测到另外两个星系存在引力透镜。为了提取亮度时间序列，我们采用了与[20]类似的方法，使用14个时间步，每步间隔6天，得到78天的周期。对这段时间内捕获的图像进行平均，得到相应的图像。每个系统的观测时间都超过了78天，因此，每个系统都有多个观测结果。最后，将大于像素的图像调整为该尺寸。

　　表11给出了我们对实际数据的结果总结。由于数据库中缺少观测值，与每个系统相关的观测值数量可能略有不同。我们的结果证实了[20]的研究结果。仅在Y5中发现透镜超新星的系统具有“透镜”预测的普遍性。

　　表11试验结果总结考虑了实际数据，包括系统ID、坐标、观测值数量、预测的类别以及观察到该类别的观测值的比例

　　编号为691022126的对象如图14所示。在一些观测中，它被归类为“LSNCC”。引力透镜的存在是由图像中可见的多个物体发出的信号。此外，四个波段的峰值表明存在超新星，g波段的峰值表明它属于“LSNCC”类，类似于图10所示的情况。图15显示了同一系统在不同时间的情况。虽然这四个天体在图像中更清晰可见，但时间序列看起来更平坦，没有表现出超新星爆炸的典型峰值。对此有几种可能的解释。一种假设是，超新星已经爆炸，亮度的变化已经无法探测到。另一种可能性是，真实数据本身比模拟数据更可变，而噪声使峰值难以检测。

　　图14

　　探测到一颗真正的引力透镜超新星——这个系统是由四个边界不明确的物体组成的。时间序列显示在四个波段中都存在峰值。正如DeepGraviLens所预测的那样，g波段的峰值表明LSNCC的存在

　　图15

　　未探测到的真实引力透镜超新星——图中呈现的系统与图14中的系统相同，但时间序列在这个时间间隔内没有显示出明显的峰值，表明没有瞬态现象。图像中四个天体之间更清晰的分离不足以表明超新星的存在

　　图16展示了标识为ID 699919273的系统，它展示了一个清晰的引力透镜。此外，这个系统包含多个物体，它们很可能是同一个天体物理物体的透镜版本。[20]的作者根据Y5的数据(未公开)将该系统归类为引力透镜超新星。在可用数据不超过Y4的情况下，将系统归类为“Lens”，这与[20]所分配的类别与公共数据不超过Y4的情况相吻合。

　　图16

　　一个真实的引力透镜——图中呈现的系统被[20]归类为引力透镜超新星。然而，该检测是在观测的第五年进行的，这是不公开的。在观测的时候，透镜已经存在，但超新星爆炸还不可见。事实上，时间序列几乎是平坦的或有噪声的

　　图17显示了ID为701263907的更复杂的系统，其中单个对象的识别由于其边界模糊而具有挑战性。中心天体周围和图像右下角的光晕表明存在引力透镜物体。有可能镜头超出了图像的边界，进一步使其识别复杂化。在时间序列数据中没有明显的峰值表明没有瞬态现象。具体来说，在g波段观察到的峰与其他波段的显著峰不对应，表明没有相关的瞬态效应。与系统699919273类似，Y4以下的数据暗示存在透镜，DeepGraviLens可以正确识别。

　　图17

　　一个真实的引力透镜——图中呈现的系统已经被[20]表示为引力透镜超新星。然而，该检测是在观测的第五年进行的，这是不公开的。在此之前，透镜已经存在，但超新星爆炸还不可见。事实上，时间序列几乎是平坦的或有噪声的

　　下载原文档：https://link.springer.com/content/pdf/10.1007/s00521-023-08766-9.pdf

分享到

声明：本文为用户投稿或编译自英文资料，不代表本站观点和立场，转载时请务必注明文章作者和来源，不尊重原创的行为将受到本站的追责；转载稿件或作者投稿可能会经编辑修改或者补充，有异议可投诉至本站。

DeepGraviLens：用于分类引力透镜数据的多模态架构

最新文章

热文导读