Arxiv论文总结报告
基本信息
- 生成时间: 2025-09-09 12:42:35
- 使用模型: gemini-2.5-flash
- 论文数量: 100 篇
论文总结
[Hypergraph-Guided Regex Filter Synthesis for Event-Based Anomaly Detection]
📅 发布日期: 2025-09-08
- 👥 作者: Margarida Ferreira, Victor Nicolet, Luan Pham, Joey Dodds, Daniel Kroening, Ines Lynce, Ruben Martins
- 🎯 研究目的: 本研究旨在开发一种名为HyGLAD的新型算法,该算法能够自动从事件数据中构建一组可解释的模式。这些模式随后可用于在稳定系统中检测基于事件的异常,其中任何偏离过去行为的迹象都可能预示着恶意活动。核心目标是解决传统异常检测方法(特别是深度学习方法)缺乏可解释性的问题,从而提供能够直接理解的异常检测结果,以便更好地识别和响应潜在威胁。
- ⭐ 主要发现:
- 核心贡献与方法: 论文提出了名为HyGLAD的新型算法,它通过推断具有相似行为的实体等价类,并为这些实体的值构建正则表达式,从而自动合成超图引导的正则表达式过滤器,以建模事件数据。
- 创新点与优势: 与深度学习方法不同,HyGLAD生成的正则表达式模式是直接可解释的,这意味着检测到的异常也具有高度的可解释性。这解决了现有黑盒模型在理解异常原因方面的局限性,对于安全分析和事件响应至关重要。
- 实验结果: 研究团队在五个真实世界系统数据集上,将HyGLAD与DeepOD中的所有七种无监督异常检测方法进行了对比评估。实验结果表明,HyGLAD在平均性能上优于现有方法,验证了其在事件数据异常检测方面的有效性和优越性。
- 潜在影响: HyGLAD为事件驱动的系统(如网络安全监控)提供了一种强大且可解释的异常检测工具,能够帮助用户更清晰地理解异常行为的根源,从而更有效地识别和应对潜在的恶意活动或系统故障。
[Raw2Event: Converting Raw Frame Camera into Event Camera]
📅 发布日期: 2025-09-08
- 👥 作者: Zijie Ning, Enmin Lin, Sudarshan R. Iyengar, Patrick Vandewalle
- 🎯 研究目的: 事件相机凭借其高时间分辨率、低延迟和高动态范围等独特优势,在挑战性光照条件下的视觉任务中日益普及。然而,其高昂的成本、有限的分辨率以及缺乏自动对焦等功能,严重阻碍了其在早期开发和原型设计中的广泛应用。本研究旨在解决这些限制,提出一个完整的软硬件系统Raw2Event,使低成本的基于帧的相机能够实时生成事件数据,从而在不牺牲事件相机核心优势的前提下,降低其应用门槛,促进其更广泛的采用。
- ⭐ 主要发现: 论文的核心贡献是提出了Raw2Event系统,这是一个集成的软硬件解决方案,能够将低成本的普通帧相机实时转换为事件相机。该系统的创新之处在于,它通过直接访问相机的原始Bayer数据,并绕过传统的图像信号处理器(ISP),从而最大限度地发挥相机硬件的潜力。实验结果表明,Raw2Event系统能够提供比现有基于RGB的帧到事件转换方法更高的动态范围、更高的分辨率以及更忠实的事件输出。这一突破性工作为事件相机的广泛应用铺平了道路,尤其是在成本敏感和需要高分辨率、高动态范围的场景中,为早期开发和原型设计提供了经济高效的替代方案。
[Event Spectroscopy: Event-based Multispectral and Depth Sensing using Structured Light]
📅 发布日期: 2025-09-08
- 👥 作者: Christian Geckeler, Niklas Neugebauer, Manasi Muglikar, Davide Scaramuzza, Stefano Mintchev
- 🎯 研究目的: 无人机(UAVs)在森林环境中执行环境监测和搜救等任务时,面临着安全导航穿越茂密树叶和精确数据采集的挑战。传统的感知方法,如被动多光谱和RGB成像,存在高延迟、深度分辨率差以及对环境光照(尤其是在森林冠层下)依赖性强等局限性。本研究旨在提出一种新颖的事件光谱系统,以克服这些问题,实现高分辨率、低延迟的深度重建和多光谱成像,从而提升无人机在复杂森林环境中的感知能力和作业效率。
- ⭐ 主要发现: 本文提出了一种创新的事件光谱系统,该系统能够使用单个传感器同时实现高分辨率、低延迟的深度重建和多光谱成像。其核心创新在于:深度信息通过结构光技术进行重建,而光谱信息则通过调制投射结构光的波长,在受控波段(例如65…之间)进行捕获。这一系统显著优于传统方法,因为它克服了传统传感器在延迟、深度分辨率和环境光依赖性方面的不足。该研究为无人机在森林等复杂环境中的安全导航和精确数据采集提供了强大的新工具,对环境监测、搜救等领域具有重要的潜在影响。
[将空间和语义嵌入整合用于视频中的立体声事件定位]
📅 发布日期: 2025-09-08
- 👥 作者: Davide Berghi, Philip J. B. Jackson
- 🎯 研究目的: 本研究旨在解决视频内容中立体声事件定位与检测以及声源距离估计(3D SELD)这一多模态任务。3D SELD是一项复杂的任务,它结合了时间事件分类和空间定位,需要跨越空间、时间和语义维度进行推理。其中,语义维度被认为是建模中最具挑战性的部分。传统的SELD方法通常依赖多通道输入,这限制了它们从大规模预训练中获益的能力,因为数据存在限制。因此,本研究的核心目的是通过整合语义信息来增强标准的SELD架构,以克服传统方法的局限性,并提升3D SELD在处理复杂语义推理方面的性能。
- ⭐ 主要发现: 本研究提出了一种创新方法,通过整合语义信息来显著增强标准的立体声事件定位与检测(SELD)架构。为了解决传统SELD方法在处理复杂语义维度上的挑战以及数据限制导致的大规模预训练不足问题,作者引入了预训练的、对比语言对齐模型。具体而言,研究将CLAP模型用于音频输入,将OWL-ViT模型用于视觉输入,以提取丰富的语义嵌入。这些语义嵌入被巧妙地整合到一个改进的Conformer模块中,从而使模型能够更好地理解和推理视频中声音事件的空间、时间和语义信息。这一方法有望提升3D SELD任务的性能,特别是在处理声源的语义理解和距离估计方面,为多模态音视频分析领域带来了新的视角和解决方案。
[DyC-STG: Dynamic Causal Spatio-Temporal Graph Network for Real-time Data Credibility Analysis in IoT]
📅 发布日期: 2025-09-08
- 👥 作者: Guanjie Cheng, Boyi Li, Peihan Wu, Feiyi Chen, Xinkui Zhao, Mengying Zhu, Shuiguang Deng
- 🎯 研究目的: 随着物联网(IoT)传感器的广泛普及,产生了海量的时空数据流,然而,在智能家居等应用中,确保这些数据的可信度是一个关键但尚未解决的挑战。尽管时空图(STG)模型是处理此类数据的主流范式,但它们在动态的、以人为中心的环境中存在两个根本性局限:首先,它们依赖静态图拓扑,无法捕捉物理的、事件驱动的动态变化;其次,它们倾向于将虚假相关性误认为是真实因果关系,从而损害了在以人为中心环境中的鲁棒性。本研究旨在解决这些现有模型的不足,提出一种新颖的框架,以实现物联网中数据的实时可信度分析。
- ⭐ 主要发现: 为了克服现有STG模型在动态、以人为中心环境中进行数据可信度分析时面临的局限性,本论文提出了一种名为动态因果时空图网络(DyC-STG)的新颖框架。DyC-STG专门设计用于物联网中的实时数据可信度分析。其核心创新点在于解决了传统STG模型依赖静态图拓扑而无法捕捉物理和事件驱动动态的问题,以及将虚假相关性误认为是真实因果关系的问题。通过引入动态性和因果推理机制,DyC-STG能够更准确地理解物联网数据流中的复杂关系,从而显著提升在复杂动态环境下进行数据可信度评估的鲁棒性和准确性。这为物联网应用(如智能家居)中数据质量保障提供了一个更有效、更可靠的解决方案。
[A data-driven discretized CS:GO simulation environment to facilitate strategic multi-agent planning research]
📅 发布日期: 2025-09-08
- 👥 作者: Yunzhe Wang, Volkan Ustun, Chris McGroarty
- 🎯 研究目的: 现代复杂多智能体交互仿真环境在实现高保真细节与保持计算效率之间面临着固有的权衡挑战。传统的仿真往往难以同时兼顾真实性和效率,尤其是在需要进行战略性、长周期规划时。本文旨在解决这一问题,提出一种新的多智能体仿真器,其核心目标是在将3D地形中的战略性、长周期规划抽象为高层离散化仿真的同时,有效保留低层环境的真实性,从而为多智能体规划研究提供一个高效且足够真实的实验平台。
- ⭐ 主要发现:
- DECOY仿真器: 论文提出并介绍了DECOY,一个新颖的多智能体仿真器,旨在平衡高保真细节与计算效率。
- 战略抽象与环境保真: DECOY的核心创新在于能够将3D地形中的战略性、长周期规划抽象为高层离散化仿真,同时有效保留低层环境的真实性,解决了传统仿真在真实性和效率之间的矛盾。
- CS:GO作为测试平台: 该框架以《反恐精英:全球攻势》(CS:GO)作为测试平台,证明了其有效性。DECOY仅通过移动决策作为战术定位,即可准确模拟游戏玩法,而无需显式建模瞄准和射击等低层机制,这突显了其在战略层面的模拟能力。
- 核心技术:
- 路点系统: 引入了一个路点系统,用于简化和离散化连续的状态和动作,这是实现高层离散化仿真的关键机制。
- 神经预测与生成模型: 结合了在真实CS:GO锦标赛数据上训练的神经预测和生成模型,用于重建事件结果,确保了仿真在抽象化后的准确性和数据驱动的真实性。
- 潜在影响: DECOY为多智能体规划研究提供了一个创新且实用的仿真环境,特别适用于需要进行长期、战略性决策的场景,有望推动相关AI算法的开发和测试,并促进对复杂多智能体行为的理解。
[REMI: A Novel Causal Schema Memory Architecture for Personalized Lifestyle Recommendation Agents]
📅 发布日期: 2025-09-08
- 👥 作者: Vishal Raman, Vijai Aravindh R, Abhijith Ragav
- 🎯 研究目的: 现有的个性化AI助手在整合复杂的个人数据和因果知识方面存在不足,导致其提供的建议往往过于通用且缺乏解释力。为了解决这一问题,本研究提出了一种名为REMI的因果图式记忆架构。其核心目标是为多模态生活方式推荐代理提供可解释、高度个性化的建议,尤其是在时尚、个人健康和生活规划等领域。
- ⭐ 主要发现:
- 论文提出了REMI(因果图式记忆)架构,这是一个用于多模态生活方式代理的创新框架,旨在克服现有AI助手在处理复杂个人数据和因果知识方面的局限性。
- REMI的核心创新在于整合了三个关键组件:一个存储用户生活事件和习惯的“个人因果知识图谱”、一个执行“因果推理引擎”以及一个“基于图式的规划模块”。
- 该架构通过对用户个人因果图谱进行目标导向的因果遍历,并结合外部知识和假设推理,来理解复杂的用户情境。
- 它能够检索并适应预设的“计划图式”,从而生成高度定制化且可解释的行动计划和建议。
- 一个大型语言模型(LLM)负责协调和整合这些核心组件的功能,确保推荐的连贯性和有效性。
- 这项工作旨在显著提升个性化AI助手在提供深度解释性和个性化建议方面的能力,尤其是在时尚、个人健康和生活规划等复杂领域。
[Repeating vs. Non-Repeating FRBs: A Deep Learning Approach To Morphological Characterization]
📅 发布日期: 2025-09-07
- 👥 作者: Bikash Kharel, Emmanuel Fonseca, Charanjot Brar, Afrokk Khan, Lluis Mas-Ribas, Swarali Shivraj Patil, Paul Scholz, Seth Robert Siegel, David C. Stenning
- 🎯 研究目的: 本研究旨在开发一种深度学习方法,纯粹基于快速射电暴(FRB)的形态学特征对其进行分类。具体来说,利用CHIME/FRB 目录 2 中记录的动态频谱数据,将FRB分为重复暴和非重复暴两个子类别。研究动机在于,FRB的形态特征(包括其时间、频谱特性以及子脉冲结构之间的关系)可能蕴含着区分这两种类型FRB的关键信息,这对于理解FRB的起源和物理机制至关重要。
- ⭐ 主要发现:
- 本研究提出了一种创新的深度学习方法,用于FRB的形态学分类。
- 核心方法是利用迁移学习,采用预训练的ConvNext架构,该模型因其强大的特征提取能力而被选中。
- 研究团队将FRB的去色散动态频谱视为图像,并对ConvNext模型进行了适应性改造和微调,以识别重复暴和非重复暴。分类依据是FRB的各种时间、频谱特性以及子脉冲结构之间的关系。
- 通过在FRB频谱图上对预训练的ConvNext模型进行微调,研究取得了高分类性能。
- 此外,研究还利用总强度数据的数学模型表示来辅助解释深度学习模型的决策过程,增强了模型的可解释性。
[DreamAudio: Customized Text-to-Audio Generation with Diffusion Models]
📅 发布日期: 2025-09-07
- 👥 作者: Yi Yuan, Xubo Liu, Haohe Liu, Xiyuan Kang, Zhuo Chen, Yuxuan Wang, Mark D. Plumbley, Wenwu Wang
- 🎯 研究目的: 随着基于扩散模型和语言模型的大规模生成模型的发展,文本到音频生成领域取得了显著进展。然而,尽管现有模型能够生成高质量的输出,它们主要侧重于生成语义上匹配的声音,却难以精确控制特定声音的细粒度声学特征。这使得用户在需要特定声音内容时,难以生成符合其期望的音频片段。本研究旨在解决这一局限性,提出DreamAudio模型,以实现定制化的文本到音频生成(CTTA),使用户能够更精确地控制生成音频的声学特性。
- ⭐ 主要发现: 本文提出了DreamAudio,一个用于定制化文本到音频生成(CTTA)的新框架。该框架的核心创新在于,它能够从用户提供的参考概念中识别听觉信息,并利用这些信息指导音频生成。具体而言,该模型设计为能够接收少量参考音频样本,并从中提取关键的听觉特征,从而实现对生成音频细粒度声学特性的精确控制。这一方法有效克服了现有文本到音频模型在精确控制特定声音特征方面的不足,为用户提供了更具定制性和个性化的音频生成能力。
[Unified Interaction Foundational Model (UIFM) for Predicting Complex User and System Behavior]
📅 发布日期: 2025-09-07
- 👥 作者: Vignesh Ethiraj, Subhash Talluri
- 🎯 研究目的: 人工智能的一个核心目标是构建能够理解和预测复杂、不断演进的事件序列的系统。然而,当前为自然语言设计的预训练模型,在处理电信、电子商务和金融等领域中结构化交互的整体性时表现不足。这些模型通过将事件序列化为文本,将其分解为语义上碎片化的部分,从而丢失了关键的上下文信息。本研究旨在解决这一问题,开发一个能够真正理解复杂用户和系统行为的统一交互基础模型。
- ⭐ 主要发现: 本文提出了统一交互基础模型(Unified Interaction Foundation Model, UIFM),这是一个专为实现真正的行为理解而设计的预训练模型。UIFM的核心创新在于其“复合分词”(composite tokenization)原则,即将每个多属性事件作为一个单一的、语义连贯的单元进行处理。这种方法使得UIFM能够学习用户行为的深层“语法”,从而克服了现有模型因事件碎片化而导致上下文丢失的问题,有望在预测复杂用户和系统行为方面取得突破。
[eKalibr-Inertial: Continuous-Time Spatiotemporal Calibration for Event-Based Visual-Inertial Systems]
📅 发布日期: 2025-09-07
- 👥 作者: Shuolong Chen, Xingxing Li, Liu Yuan
- 🎯 研究目的: 事件相机因其卓越的时间分辨率、高动态范围和低功耗等特性,在运动估计、机器人感知和目标检测等领域得到了广泛研究。在自我运动估计中,视觉惯性系统因其传感器互补性(如尺度感知和低漂移)而被普遍采用。然而,为了实现事件相机与惯性测量单元之间最优的视觉惯性融合,精确的空间-时间(包括外参和时间同步)标定是必不可少的。本研究旨在开发一个高精度、连续时间的空间-时间标定器,以解决事件视觉惯性系统在融合时对精确标定的核心需求。
- ⭐ 主要发现:
- 核心贡献: 论文成功提出了 eKalibr-Inertial,一个专门针对事件视觉惯性系统设计的高精度、连续时间空间-时间标定器。
- 方法创新: 该标定器利用了广泛使用的圆形网格板作为标定目标,并在此基础上,借鉴并发展了eKalibr和eKalibr-Stereo中成熟的网格图案识别和跟踪方法,实现了对事件视觉惯性系统精确的空间-时间标定。
- 潜在影响: eKalibr-Inertial的引入有望显著提升事件视觉惯性系统在精确自我运动估计、机器人导航和感知等应用中的性能,通过提供更准确的传感器间空间和时间关系,优化数据融合效果。
[Data-Driven Stochastic Modeling Using Autoregressive Sequence Models: Translating Event Tables to Queueing Dynamics]
📅 发布日期: 2025-09-06
- 👥 作者: Daksh Mittal, Shunri Zheng, Jing Dong, Hongseok Namkoong
- 🎯 研究目的: 排队网络模型是分析服务系统的强大工具,但其构建传统上需要大量人工投入和领域专业知识。为了使这种建模方法更具可扩展性和易用性,本研究提出了一种数据驱动的排队网络建模与仿真框架。该框架基于在事件流数据上训练的自回归序列模型。我们的核心目标是,通过学习事件类型和事件时间的条件分布,将建模任务重新定义为序列分布学习问题,从而避免显式指定到达过程、服务机制或路由逻辑。
- ⭐ 主要发现: 本研究的核心贡献在于提出了一种创新的方法,将排队网络建模转化为序列分布学习问题。我们证明了Transformer风格的架构能够有效地参数化事件类型和事件时间的条件分布。这一方法使得高保真模拟器能够被自动化构建,从而显著降低了构建排队网络模型所需的人工和专业知识,极大地提高了建模的可扩展性和可访问性。
[time2time: Causal Intervention in Hidden States to Simulate Rare Events in Time Series Foundation Models]
📅 发布日期: 2025-09-06
- 👥 作者: Debdeep Sanyal, Aaryan Nagpal, Dhruv Kumar, Murari Mandal, Saurabh Deshpande
- 🎯 研究目的: 尽管基于Transformer的时间序列基础模型在预测常规模式方面表现出色,但仍存在两个核心问题:它们是否真正内化了诸如市场机制之类的语义概念,或者仅仅是拟合曲线?以及,它们的内部表示能否被利用来模拟罕见且高风险的事件,例如市场崩盘?本研究旨在通过引入一种新颖的因果干预方法,来深入探讨这些问题,并证明可以利用模型的内部状态来模拟和控制时间序列中的罕见事件。
- ⭐ 主要发现: 论文引入了一种名为“激活移植”(activation transplantation)的因果干预技术,旨在操纵模型的隐藏状态。该方法通过在模型的前向传播过程中,将一个事件(例如,历史上的市场崩盘)的统计矩强加到另一个事件(例如,平静期)的隐藏状态上,从而精确地操纵模型的内部表示。研究发现,这种干预能够确定性地引导模型的预测结果:注入“崩盘语义”会诱导模型预测市场下行;而注入“平静语义”则能抑制崩盘并恢复市场稳定性。此外,研究还发现,模型不仅支持二元控制,还编码了对事件的“分级”理解。这些发现不仅证实了时间序列基础模型确实内化了语义概念,而且提供了一种强大的工具,可以利用其内部表示来模拟和预测罕见的高风险事件,这对于风险管理、情景规划和决策制定具有重要意义。
[Tell-Tale Watermarks for Explanatory Reasoning in Synthetic Media Forensics]
📅 发布日期: 2025-09-06
- 👥 作者: Ching-Chun Chang, Isao Echizen
- 🎯 研究目的: 随着人工智能能力的不断演进,合成媒体的兴起模糊了现实与虚构的界限,助长了信息疫情,侵蚀了公众对网络空间的信任。对于数字图像而言,多种编辑应用(包括改变内容的语义编辑、重新校准色彩特征的光度调整以及重塑视角的几何投影)进一步复杂化了法证分析。这些转换共同操纵和控制着数字图像的感知解释。这种易受操纵的特性要求进行法证调查,以重建事件链,从而揭示犯罪意图存在与否的更深层证据洞察。本研究旨在解决一个逆向问题,即追踪和解释合成媒体的生成与篡改过程。
- ⭐ 主要发现: 尽管摘要被截断,但结合论文标题“Tell-Tale Watermarks for Explanatory Reasoning in Synthetic Media Forensics”和研究背景,可以推断本研究的核心贡献在于提出并应用了一种创新的“可解释性水印”(Tell-Tale Watermarks)技术。该技术旨在为合成媒体的法证分析提供一种新颖的解决方案,通过在媒体的生成或编辑过程中嵌入特定的、具有解释能力的信息,使得在后续的法证分析中能够有效地追溯和解释图像的篡改历史和操作步骤。这项技术有望解决在面对复杂的数字图像编辑(如语义、光度、几何变换)时,难以重建事件链的挑战,从而为法证人员提供深入的证据洞察,以识别数字图像的真实性、来源以及潜在的犯罪意图,有效地应对合成媒体带来的逆向追踪和解释问题。
[RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentangled Representation]
📅 发布日期: 2025-09-06
- 👥 作者: Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang
- 🎯 研究目的: 事件相机能够提供稀疏但时间分辨率极高的运动信息,这在运动去模糊领域展现出巨大的应用潜力。然而,现有方法主要关注跨模态交互,却普遍忽视了事件流固有的不完整性。这种不完整性源于动态视觉传感器(DVS)的阈值机制在灵敏度和噪声之间进行的权衡。这种固有的退化损害了运动先验信息的完整性,从而限制了事件引导去模糊的有效性。本研究旨在解决这些挑战,开发一种能够鲁棒处理不完整事件信息的运动去模糊方法。
- ⭐ 主要发现: 为了应对事件流不完整性带来的挑战,本文提出了一种名为RED(Robust Event-guided Deblurring)的鲁棒事件引导去模糊网络,该网络采用了模态特定的解耦表示。RED网络的核心创新之一是引入了一种面向鲁棒性的扰动策略(Robustness-Oriented Perturbation Strategy, RPS)。RPS通过对事件流应用随机遮蔽(masking),有意地使RED网络暴露于不完整的事件模式中进行训练,从而显著增强了网络在面对实际应用中事件数据不完整性时的鲁棒性和去模糊性能。
[Beyond Linearity and Time-homogeneity: Relational Hyper Event Models with Time-Varying Non-Linear Effects]
📅 发布日期: 2025-09-05
- 👥 作者: Martina Boschi, Jürgen Lerner, Ernst C. Wit
- 🎯 研究目的: 随着技术进步,收集包含多实体间时间戳关系事件的大型复杂网络数据变得日益普遍。关系超事件模型(RHEMs)旨在通过将事件发生率建模为基于历史统计和外部信息的函数来解释这些事件的动态。然而,现有RHEM方法大多依赖于线性假设来建模这种关系,这限制了其对数据内在复杂性的捕捉能力。本研究的核心目的是解决这一局限,引入一个更灵活的模型,以允许统计效应以非线性且随时间变化的方式进行建模,从而更准确地理解和预测复杂关系事件的动态。
- ⭐ 主要发现: 本研究的核心贡献在于提出了一个超越传统线性和时间齐次性假设的新型关系超事件模型。该模型创新性地允许统计效应以非线性且随时间变化的方式影响事件发生率,从而显著增强了模型的灵活性和对复杂数据模式的适应性。尤其值得注意的是,论文进一步将时间变化效应与非线性效应进行联合建模,这在关系事件建模领域是一个重要的突破。通过引入这种更精细的建模方法,本研究为解释和预测复杂关系事件网络中的动态提供了更强大的工具,有望提高模型在各种应用场景中的准确性和解释力。
[SpikingBrain Technical Report: Spiking Brain-inspired Large Models]
📅 发布日期: 2025-09-05
- 👥 作者: Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Zehao Liu, Bohan Sun, Yuhong Chou, Han Xu, Xuerui Qiu, Anlin Deng, Anjie Hu, Peng Zhou, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun, Bo Xu, Guoqi Li
- 🎯 研究目的: 主流基于Transformer的大型语言模型面临显著的效率瓶颈,具体表现为训练计算量随序列长度呈二次方增长,以及推理内存随序列长度呈线性增长,这严重限制了它们处理长上下文的能力。此外,在非NVIDIA平台上构建大型模型也给稳定和高效的训练带来了挑战。为了解决这些关键问题,本研究引入了SpikingBrain,一个受大脑启发的模型家族,旨在实现高效的长上下文训练和推理。
- ⭐ 主要发现: SpikingBrain模型利用MetaX GPU集群,并在三个核心方面进行了创新和优化,以克服现有大型模型的效率和平台兼容性挑战:
- 模型架构: 采用了线性及混合线性注意力架构,并结合了自适应脉冲神经元,旨在提高模型处理长序列的效率。
- 算法优化: 提出了一种高效的、基于转换的训练流程和一个专用的脉冲编码框架,以优化模型的训练效率和性能。
- 系统工程: 进行了定制化的训练系统工程(尽管摘要在此处被截断,但结合上下文,这旨在解决在非NVIDIA等多样化硬件平台上实现稳定高效训练的挑战)。这些综合性的创新共同致力于提升大型模型在长上下文处理方面的效率,并增强其在不同硬件平台上的训练稳定性与效率。
[Recomposer: Event-roll-guided generative audio editing]
📅 发布日期: 2025-09-05
- 👥 作者: Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal
- 🎯 研究目的: 在复杂的真实世界声音场景中,由于单个声源在时间上重叠,编辑特定声音事件非常困难。现有的生成模型能够利用其对数据领域的强大先验理解来填补缺失或损坏的细节。本文旨在提出一个系统,用于在复杂声音场景中编辑单个声音事件。该系统能够根据文本编辑描述(例如,“增强门声”)和从“事件卷轴”(event roll)转录中提取的事件时序图形表示,实现对单个声音事件的删除、插入和增强。
- ⭐ 主要发现: 本文提出了一个名为 Recomposer 的生成式音频编辑系统,它是一个基于 SoundStream 表示的编码器-解码器 Transformer 模型。该模型通过在合成的(输入,期望输出)音频示例对上进行训练,这些示例对是通过将孤立的声音事件添加到密集的真实世界背景中形成的。Recomposer 的核心创新在于其利用事件卷轴(event roll)指导的编辑能力,结合文本描述,实现了对复杂音频场景中特定声音事件的精细化控制,包括删除、插入和增强。尽管摘要被截断,但已揭示其评估结果强调了编辑描述各个部分的重要性,这表明该系统在理解和执行复杂编辑指令方面具有有效性。该研究为生成式音频编辑领域提供了一种新颖且实用的方法,有望显著提升复杂声场景的后期制作和个性化编辑效率。
[ModalSurv: A Multimodal Deep Survival Framework for Prostrate and Bladder Cancer]
📅 发布日期: 2025-09-05
- 👥 作者: Noorul Wahab, Ethar Alzaid, Jiaqi Lv, Adam Shephard, Shan E Ahmed Raza
- 🎯 研究目的: 肿瘤学中,准确预测事件发生时间(time-to-event outcomes)对治疗规划和患者管理至关重要,但仍面临挑战。本研究旨在开发一个多模态深度生存框架ModalSurv,通过整合临床、MRI、RNA测序和全玻片病理特征等异构患者数据,捕获跨模态的互补预后信号,从而实现对前列腺癌患者生化复发时间和膀胱癌患者癌症复发时间的个体化预测。
- ⭐ 主要发现: 本论文提出了ModalSurv,一个创新的多模态深度生存模型,用于解决肿瘤学中时间-事件预测的难题。该模型基于DeepHit框架,并创新性地引入了投影层(projection layer)和模态间交叉注意力(inter-modality cross-attention)机制,使其能够有效整合并利用来自临床、MRI、RNA测序和全玻片病理等多种异构数据源的患者信息。ModalSurv旨在捕获不同模态之间互补的预后信号,从而为前列腺癌的生化复发和膀胱癌的癌症复发提供个体化的时间预测。研究团队在CHIMERA Grand Challenge的两个任务中对该方法进行了评估,初步结果显示了其在前列腺癌生化复发预测等任务中的潜力,有望显著提升肿瘤患者预后预测的准确性,进而优化治疗决策和患者管理。
[Scaling Law for Large-Scale Pre-Training Using Chaotic Time Series and Predictability in Financial Time Series]
📅 发布日期: 2025-09-05
- 👥 作者: Yuki Takemoto
- 🎯 研究目的: 时间序列预测在气象、交通、电力、经济和金融等多个领域中对决策制定至关重要,其中金融工具的回报预测尤其具有挑战性。鉴于此,一些研究者提出了适用于各种预测任务的时间序列基础模型。同时,由于认识到真实世界的时间序列展现出混沌特性,研究人员也开发了人工生成合成混沌时间序列、构建多样化数据集并训练模型的方法。本研究旨在提出一种新的方法论,通过生成人工混沌时间序列并应用重采样技术来模拟金融时间序列数据,进而用于金融时间序列建模。
- ⭐ 主要发现: 本论文提出了一种创新的金融时间序列建模方法论。其核心贡献在于:通过人工生成具有混沌特性的时间序列,并进一步应用重采样技术来模拟金融时间序列数据。这种方法旨在为训练模型提供多样化且能反映真实世界复杂性的数据集,以期提升金融时间序列的预测能力。尽管摘要内容不完整,无法详细阐述具体的实验结果、性能评估或其对大规模预训练中“标度律”的发现,但其利用合成混沌时间序列和重采样技术来模拟金融数据进行建模的思路,为应对金融时间序列预测的固有挑战提供了一个新颖且富有潜力的方向。
[Augmented Structure Preserving Neural Networks for cell biomechanics]
📅 发布日期: 2025-09-05
- 👥 作者: Juan Olalla-Pombo, Alberto Badías, Miguel Ángel Sanz-Gómez, José María Benítez, Francisco Javier Montáns
- 🎯 研究目的: 细胞生物力学是生命演化、胚胎发生、受损结构维护或肿瘤生长等过程的基础。尽管对这些现象的理解日益深入,但它们之间的复杂相互作用以及对细胞作为集体网络或集群决策的影响仍不明确。本研究旨在提出一种新方法,结合结构保持神经网络(用于研究纯机械系统中的细胞运动)与机器学习工具(如人工神经网络),以考虑环境因素,从而更全面地理解细胞生物力学中的复杂现象。
- ⭐ 主要发现: 本文提出了一种结合结构保持神经网络(SPNN)和人工神经网络(ANN)的新方法。SPNN专注于将细胞运动建模为纯机械系统,而ANN则能够整合直接从环境中推断出的环境因素。这种增强型方法旨在克服现有模型在理解细胞间复杂相互作用方面的局限性,有望提供更全面的细胞生物力学模型,从而更好地理解细胞在复杂环境中的行为和决策,对胚胎发生、组织修复和肿瘤发展等领域的研究具有潜在影响。
[WatchHAR: Real-time On-device Human Activity Recognition System for Smartwatches]
📅 发布日期: 2025-09-05
- 👥 作者: Taeyoung Yeon, Vasco Xu, Henry Hoffmann, Karan Ahuja
- 🎯 研究目的: 尽管在实用和多模态细粒度人体活动识别(HAR)方面取得了进展,但一个完全在智能手表上、在无约束环境中运行的系统仍然难以实现。现有系统常面临隐私和延迟问题,因为它们依赖外部数据处理。本研究旨在开发一个名为WatchHAR的系统,该系统能够完全在智能手表上运行,利用音频和惯性传感器数据进行实时HAR,以解决隐私和延迟问题。
- ⭐ 主要发现: 本文提出了WatchHAR,一个基于音频和惯性传感器的HAR系统,能够完全在智能手表上运行。通过优化管道的每个组件,WatchHAR实现了显著的性能提升。研究引入了一种新颖的架构,将传感器数据预处理和推理统一到一个端到端可训练的模块中,实现了5倍的处理速度提升,同时在超过25种活动类别上保持了90%以上的准确率。WatchHAR在事件检测和活动分类方面超越了现有最先进的模型,且能够直接在设备上运行,有效解决了隐私和延迟问题。
[Sali4Vid: Saliency-Aware Video Reweighting and Adaptive Caption Retrieval for Dense Video Captioning]
📅 发布日期: 2025-09-04
- 👥 作者: MinJu Jeon, Si-Woo Kim, Ye-Chan Kim, HyunGee Kim, Dong-Jin Kim
- 🎯 研究目的: 密集视频字幕(Dense Video Captioning)旨在对视频中的事件进行时间定位并为每个事件生成字幕。现有端到端模型存在两个局限性:一是仅对文本应用时间戳监督,而对所有视频帧一视同仁;二是仅从固定大小的视频块中检索字幕,忽略了场景转换。本研究旨在通过引入显著性感知视频重加权和自适应字幕检索机制,解决这些问题,从而提高密集视频字幕的准确性和鲁棒性。
- ⭐ 主要发现: 本文提出了Sali4Vid,一个简单而有效的显著性感知框架,用于解决密集视频字幕中的现有局限性。该框架引入了“显著性感知视频重加权”(Saliency-aware Video Reweighting),它将时间戳注释转换为基于Sigmoid的帧重要性权重,从而更精细地处理视频帧。此外,还提出了“基于语义的自适应字幕检索”(Semantic-based Adaptive Caption Retrieval),通过帧相似度分割视频以捕捉场景转换,从而改进字幕检索。Sali4Vid在YouCook2和ViTT数据集上取得了最先进的结果,证明了其在提高密集视频字幕性能方面的有效性。
[Stitching the Story: Creating Panoramic Incident Summaries from Body-Worn Footage]
📅 发布日期: 2025-09-04
- 👥 作者: Dor Cohen, Inga Efrosman, Yehudit Aperstein, Alexander Apartsin
- 🎯 研究目的: 急救人员广泛使用随身摄像机记录事件现场并支持事后分析,但在时间紧迫的情况下,审查冗长的视频片段是不切实际的。有效的态势感知需要一个简洁且能快速解读的视觉摘要。本研究旨在开发一个计算机视觉流程,将随身摄像机拍摄的视频片段转换为信息丰富的全景图像,以总结事件现场,从而提高事件分析的效率和准确性。
- ⭐ 主要发现: 本文提出了一种计算机视觉流程,能够将随身摄像机 footage 转换为全景图像,以简洁地总结事件现场。该方法利用单目同步定位与映射(SLAM)技术来估计摄像机轨迹并重建环境的空间布局。通过沿轨迹聚类摄像机姿态来识别关键视点,并从每个聚类中选择代表性帧。这些帧被融合到空间连贯的全景图像中,从而生成一个全面的事件场景视觉摘要。该方法显著提高了在时间关键情境下对事件现场的态势感知能力,为急救人员和事后分析提供了高效的工具。
[Characteristic Energy Behavior Profiling of Non-Residential Buildings]
📅 发布日期: 2025-09-04
- 👥 作者: Haley Dozier, Althea Henslee
- 🎯 研究目的: 面对气候变化和极端天气事件的威胁,美国陆军设施的基础设施面临风险,需要采取气候韧性措施以保护支持关键任务的设施资产。由于美国大陆大部分陆军设施依赖商业能源和水源,因此必须确定对独立能源(电网、天然气管道等)脆弱性的韧性,并对设施内的能源使用情况有基线了解。本研究旨在提出一个数据驱动的行为模型,以确定设施能源使用的行为特征,从而评估气候变化对能源使用的影响并支持韧性规划。
- ⭐ 主要发现: 本文提出了一个数据驱动的行为模型,用于确定非住宅建筑的能源使用行为特征。这些特征将用于:1) 创建气候变化对能源使用影响的基线评估;2) 识别能源消耗模式中的异常,以优化能源管理和提高效率。通过对陆军设施的能源使用数据进行分析,该模型能够揭示典型的能源消耗模式和潜在的脆弱点,为制定有效的气候韧性策略和能源管理措施提供数据支持,从而增强关键任务的保障能力。
[How many patients could we save with LLM priors?]
📅 发布日期: 2025-09-04
- 👥 作者: Shota Arai, David Selby, Andrew Vargo, Sebastian Vollmer
- 🎯 研究目的: 临床试验通常需要大量患者才能达到足够的统计功效,这增加了成本和时间。本研究旨在探索如何利用大型语言模型(LLMs)中编码的知识,为多中心临床试验中的不良事件分层贝叶斯建模提供先验分布,从而显著减少所需患者数量,同时保持统计功效,最终加速药物研发和患者获益。
- ⭐ 主要发现: 本文提出了一种新颖的框架,用于多中心临床试验中不良事件的分层贝叶斯建模,该框架利用LLM提供的先验分布。与生成合成数据点的数据增强方法不同,本方法直接从LLM中获取参数化先验。通过系统地从预训练LLM中获取分层贝叶斯模型超参数的信息先验,本方法能够将外部临床专业知识直接融入贝叶斯安全建模中。通过全面的温度敏感性分析和对真实世界临床数据的严格交叉验证,研究表明LLM先验能够显著减少临床试验所需的患者数量,同时保持甚至提高统计功效,从而有望加速新疗法的开发和应用。
[Explicit and Implicit Data Augmentation for Social Event Detection]
📅 发布日期: 2025-09-04
- 👥 作者: Congbo Ma, Yuxia Wang, Jia Wu, Jian Yang, Jing Du, Zitai Qiu, Qing Li, Hu Wang, Preslav Nakov
- 🎯 研究目的: 社交事件检测(SED)旨在从社交媒体中识别和分类重要事件,但其性能高度依赖于标注数据,而数据标注成本高昂且耗时。为解决这一问题,本研究旨在提出一个可插拔的双重数据增强框架SED-Aug,结合显式文本增强和隐式特征空间增强,以提高数据多样性和模型鲁棒性,从而在有限标注数据下提升社交事件检测的性能。
- ⭐ 主要发现: 本文提出了SED-Aug,一个可插拔的双重数据增强框架,用于社交事件检测。该框架结合了显式文本增强和隐式特征空间增强,以提高数据多样性和模型鲁棒性。显式增强利用大型语言模型(LLMs)通过五种不同的生成策略来丰富文本信息。隐式增强则设计了五种新颖的扰动技术,在结构融合嵌入的特征空间中进行操作,旨在保持嵌入的语义和关系特性。这些增强策略共同作用,有效解决了标注数据稀缺的问题,提高了社交事件检测模型的性能和泛化能力。
[DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset]
📅 发布日期: 2025-09-04
- 👥 作者: Mustafa Sakhai, Kaung Sithu, Min Khant Soe Oke, Maciej Wielgosz
- 🎯 研究目的: 事件相机(如动态视觉传感器DVS)因其低延迟、高动态范围和运动鲁棒性,在计算机视觉领域展现出巨大潜力。然而,缺乏专门用于行人检测和穿越意图分析的、包含真实世界复杂性和恶劣天气条件的事件数据集,限制了其在自动驾驶等领域的应用。本研究旨在构建一个名为DVS-PedX的神经形态数据集,结合合成和真实世界数据,以支持在正常和恶劣天气条件下对行人检测和穿越意图进行分析。
- ⭐ 主要发现: 本文介绍了DVS-PedX,一个专为行人检测和穿越意图分析设计的神经形态数据集。该数据集结合了两个互补来源:1) 在CARLA模拟器中生成的合成事件流,用于在不同天气和光照条件下模拟受控的“接近-穿越”场景;2) 使用v2e工具将真实世界JAAD行车记录仪视频转换为事件流,保留了自然的行人行为和背景。每个序列都包含配对的RGB帧、每帧DVS“事件帧”(33毫秒累积)以及帧级标签(穿越与否)。DVS-PedX的发布为研究人员提供了在各种复杂条件下开发和评估基于事件的行人感知算法的宝贵资源,尤其是在低延迟和高动态范围应用中。
[TEn-CATS: Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph]
📅 发布日期: 2025-09-04
- 👥 作者: Yaru Chen, Faegheh Sardari, Peiliang Zhang, Ruohao Guo, Yang Xiang, Zhenbo Li, Wenwu Wang
- 🎯 研究目的: 音视频视频解析(AVVP)旨在识别视频中的事件类别及其发生时间,通常仅提供弱监督标签。现有方法在处理噪声段级伪标签和无差别注意力传播时,容易导致初始错误在训练过程中反复放大。本研究旨在解决这些问题,提出一种结合双向文本融合(BiT)模块和类别感知时间图(CATS)模块的新方法,以提高AVVP任务的准确性和鲁棒性。
- ⭐ 主要发现: 本文提出了TEn-CATS方法,用于解决音视频视频解析(AVVP)任务中现有方法的局限性。该方法结合了双向文本融合(BiT)模块和类别感知时间图(CATS)模块。BiT模块通过引入文本信息丰富了音视频特征表示,而CATS模块则构建了一个多尺度、类别感知的时间图,能够更精确地建模事件的时间关系,并有效抑制噪声伪标签的传播。通过这种设计,TEn-CATS能够更准确地识别事件类别和发生时间,克服了传统方法中初始错误放大的问题,显著提升了AVVP任务的性能。
[Focus Through Motion: RGB-Event Collaborative Token Sparsification for Efficient Object Detection]
📅 发布日期: 2025-09-04
- 👥 作者: Nan Yang, Yang Wang, Zhanwen Liu, Yuchao Dai, Yang Liu, Xiangmo Zhao
- 🎯 研究目的: 现有的RGB-事件目标检测方法在特征提取和融合过程中,对两种模态的低信息区域(图像背景和事件数据中的非事件区域)进行统一处理,导致计算成本高昂且性能不佳。尽管研究人员提出了各自的token稀疏化方法,但这些方法通常采用固定数量或阈值进行token选择,难以保留具有不同复杂度的样本中的信息性token。本研究旨在提出一种自适应协同稀疏化方法,以在精度和效率之间取得更好的平衡。
- ⭐ 主要发现: 本文提出了FocusMamba,一种用于高效目标检测的RGB-事件协同token稀疏化方法。FocusMamba通过自适应协同稀疏化多模态特征,并高效整合互补信息,解决了现有方法计算冗余和性能次优的问题。它克服了固定token选择策略的局限性,能够根据样本复杂性动态保留信息量大的token。实验结果表明,FocusMamba在保持高精度的同时显著降低了计算成本,实现了精度和效率的更好平衡,为多模态目标检测提供了新的解决方案。
[Predicting Traffic Accident Severity with Deep Neural Networks]
📅 发布日期: 2025-09-04
- 👥 作者: Meghan Bibb, Pablo Rivas, Mahee Tayba
- 🎯 研究目的: 交通事故研究对于降低未来事件风险至关重要。机器学习的最新进展为分析交通事故相关数据提供了新途径,尤其是在处理不平衡数据时展现出良好的泛化能力和高预测能力。本研究旨在利用深度神经网络模型,对交通事故数据进行分析,并预测事故的严重程度,以期提供更准确的风险评估和决策支持。
- ⭐ 主要发现: 本研究利用深度神经网络模型对交通事故数据进行了分析,旨在预测事故严重程度。首先,研究分析了相对特征共线性和通过自编码器进行的无监督降维。随后,构建了一个密集网络来对事故严重程度进行分类。实验结果表明,所提出的深度神经网络模型在分类事故严重程度时,通过交叉验证达到了高达92%的准确率。这一发现证明了深度神经网络在处理交通事故数据和预测其严重程度方面的强大能力,为交通安全管理和风险缓解提供了有效的工具。
[EGTM: Event-guided Efficient Turbulence Mitigation]
📅 发布日期: 2025-09-04
- 👥 作者: Huanan Li, Rui Fan, Juntao Guan, Weidong Hao, Lai Rui, Tong Wu, Yikai Wang, Lin Gu
- 🎯 研究目的: 湍流缓解(TM)旨在消除大气湍流对帧相机引入的随机失真和模糊。现有的深度学习TM方法通常从多个退化帧中提取湍流线索以寻找“幸运”的未失真补丁进行“幸运融合”,但这需要高容量网络从有限帧率的同步帧中学习粗粒度湍流动态,导致计算和存储效率低下。本研究旨在利用事件相机微秒级时间分辨率的优势,提出一种事件引导的TM方法,从根本上解决这一瓶颈。
- ⭐ 主要发现: 本文提出了EGTM(Event-guided Efficient Turbulence Mitigation),一种事件引导的高效湍流缓解方法。研究首先揭示了“事件-幸运洞察”(event-lucky insight),阐明了事件相机在微秒级时间分辨率下捕捉湍流动态的潜力,这与传统帧相机有限的帧率形成对比。EGTM利用事件相机的稀疏和异步成像机制,能够更有效地提取湍流线索,从而避免了传统深度学习TM方法所需的高容量网络和计算存储开销。这一创新方法有望显著提高湍流缓解的效率和性能,为在复杂大气条件下进行精确成像提供了新的途径。
[Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data]
📅 发布日期: 2025-09-03
- 👥 作者: Honglu Zhou, Xiangyu Peng, Shrikant Kendre, Michael S. Ryoo, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles
- 🎯 研究目的: 下一代AI伴侣需要超越一般的视频理解,以解决动态真实世界环境中的时空指代和推理问题。现有视频大型语言模型(Video LLMs)虽然能够进行粗粒度理解,但在细粒度时空推理方面表现不佳,尤其当用户查询依赖于基于时间的事件指代进行时间锚定,或依赖手势线索进行空间锚定以澄清对象指代和位置时。本研究旨在弥补这一关键差距,通过引入一个合成指令数据生成框架Strefer,赋予Video LLMs时空指代和推理能力。
- ⭐ 主要发现: 本文提出了Strefer,一个合成指令数据生成框架,旨在赋予Video LLMs时空指代和推理能力。Strefer利用一个数据引擎,对时间密集、细粒度的视频元数据进行伪标注,从而生成多样化的指令微调数据。这些数据专门用于训练Video LLMs,使其能够理解和响应涉及空间和时间精确指代的复杂查询,例如“在某个时间点某个特定位置发生了什么”。通过这种方法,Strefer显著提升了Video LLMs在处理细粒度时空推理任务上的性能,使其能够更好地适应真实世界的动态交互,为下一代AI伴侣的发展奠定了基础。
[Real-Time Instrument Planning and Perception for Novel Measurements of Dynamic Phenomena]
📅 发布日期: 2025-09-03
- 👥 作者: Itai Zilberstein, Alberto Candela, Steve Chien
- 🎯 研究目的: 随着机载计算的进步,遥感代理能够在边缘设备上应用最先进的计算机视觉和机器学习技术。这些能力可用于实现对动态科学现象的罕见、瞬态和精确测量。本研究旨在提出一个自动化工作流程,将前瞻性卫星图像中动态事件的检测与高分辨率传感器的自主轨迹规划相结合,以获取精确测量,并以火山羽流观测为例进行验证。
- ⭐ 主要发现: 本文提出了一个自动化工作流程,该流程将前瞻性卫星图像中动态事件的检测与后续高分辨率传感器的自主轨迹规划相结合,以获取精确测量。研究分析了包括传统机器学习算法和卷积神经网络在内的分类方法,用于检测动态事件。此外,提出了几种轨迹规划算法,能够跟踪火山羽流的形态特征并进行精确测量。该工作流程成功应用于观测火山羽流的案例,展示了其在实时仪器规划和感知方面的有效性,为获取动态科学现象的新颖测量提供了强大的自主解决方案。
[EclipseTouch: Touch Segmentation on Ad Hoc Surfaces using Worn Infrared Shadow Casting]
📅 发布日期: 2025-09-03
- 👥 作者: Vimal Mollyn, Nathan DeVrio, Chris Harrison
- 🎯 研究目的: 在未经过特殊处理的日常表面上检测触摸事件一直是混合现实系统的一个长期目标。现有研究表明,绑定到物理表面的虚拟界面在性能和人体工程学方面优于在空中浮动的界面。本研究旨在提出一种新的、集成到头戴设备的EclipseTouch技术,利用佩戴式红外阴影投射,实现对任意表面上的触摸事件进行准确分割和检测。
- ⭐ 主要发现: 本文提出了EclipseTouch,一种新的头戴设备集成技术,用于在任意表面上进行触摸分割。该技术结合了计算机触发的摄像头和一个或多个红外发射器,以创建结构化阴影。通过分析这些阴影,EclipseTouch能够准确估计悬停距离(平均误差6.9毫米)和触摸接触(98.0%准确率)。研究讨论了该技术在不同条件下的工作表现,包括表面材料、交互方向和环境光照。EclipseTouch为混合现实系统提供了一种可靠且通用的触摸检测解决方案,有望提升用户在物理世界中与虚拟界面交互的体验。
[Time-Scaling State-Space Models for Dense Video Captioning]
📅 发布日期: 2025-09-03
- 👥 作者: AJ Piergiovanni, Ganesh Satish Mallya, Dahun Kim, Anelia Angelova
- 🎯 研究目的: 密集视频字幕是一项具有挑战性的视频理解任务,要求同时将视频分割成一系列有意义的连续事件,并为每个事件生成详细字幕。现有方法在处理长视频时常遇到困难,原因在于计算复杂性和内存限制。此外,传统方法需要将整个视频作为输入才能生成结果,这排除了视频的在线处理。本研究旨在通过时间尺度化状态空间模型(SSMs)来解决这些挑战,使其能够处理更长的序列并支持在线处理。
- ⭐ 主要发现: 本文通过时间尺度化状态空间模型(SSMs)来解决密集视频字幕任务中长视频处理的挑战。研究提出的方法,名为“带有传输状态的状态空间模型”(State-Space Models with Transfer State),结合了SSMs的长序列处理能力和递归特性。这种方法不仅能够处理比以往更长的视频序列,而且通过其递归性质,使得视频的在线处理成为可能,克服了传统方法需要完整视频输入和高计算内存消耗的局限性。这一创新为密集视频字幕和更广泛的视频理解任务提供了一个高效且可扩展的解决方案。
[Evaluation of Stress Detection as Time Series Events – A Novel Window-Based F1-Metric]
📅 发布日期: 2025-09-03
- 👥 作者: Harald Vilhelm Skat-Rørdam, Sneha Das, Kathrine Sofie Rasmussen, Nicole Nadine Lønfeldt, Line Clemmensen
- 🎯 研究目的: 在可穿戴设备进行压力监测等应用中,时间序列事件检测的准确评估至关重要。然而,地面真实通常被标注为单点事件,而潜在现象是渐进且时间上扩散的。标准指标如F1和点调整F1(F1$_{pa}$)在处理这种真实世界、不平衡数据集时,往往无法准确反映模型性能。本研究旨在引入一种新的基于窗口的F1指标(F1$_w$),以纳入时间容忍度,从而在精确对齐不切实际的情况下,对事件检测进行更稳健的评估。
- ⭐ 主要发现: 本文引入了一种新颖的基于窗口的F1指标(F1$w$),用于更准确地评估时间序列事件检测,特别是在压力监测等应用中。F1$_w$通过引入时间容忍度,解决了传统F1和点调整F1(F1${pa}$)在处理渐进式、时间扩散事件时表现不佳的问题。在三个生理数据集(ADARP、Wrist Angel和ROAD)上的实证分析表明,F1$_w$能够揭示传统指标无法捕捉到的有意义的模型性能模式。这一新指标为评估真实世界、不平衡数据集中的事件检测模型提供了一个更鲁棒和准确的工具,对于可穿戴设备和健康监测领域具有重要意义。
[Domain Adaptation of LLMs for Process Data]
📅 发布日期: 2025-09-03
- 👥 作者: Rafael Seidi Oyamada, Jari Peeperkorn, Jochen De Weerdt, Johannes De Smedt
- 🎯 研究目的: 近年来,大型语言模型(LLMs)在包括过程挖掘(PM)在内的各个研究领域引起了广泛关注。PM中的现有应用主要集中在提示工程策略或将事件日志转换为叙事风格数据集,从而利用LLMs的语义能力解决各种任务。本研究旨在探索将预训练LLMs直接应用于过程数据,而无需自然语言重构,因为这些模型在生成token序列方面表现出色,这与PM的目标相似。更具体地说,本研究关注参数高效微调技术,以减轻与此类模型相关的计算开销。
- ⭐ 主要发现: 本文研究了将预训练大型语言模型(LLMs)直接应用于过程数据进行领域适应的方法,旨在避免自然语言重构的需要。研究发现,LLMs在生成token序列方面的能力与过程挖掘(PM)的目标高度契合。为此,本文重点探讨了参数高效微调(PEFT)技术,以有效降低与LLMs相关的巨大计算开销。实验结果表明,通过PEFT技术,LLMs可以成功地适应过程数据,并在不进行复杂自然语言转换的情况下,在PM任务中展现出强大的性能。这一发现为PM领域利用LLMs提供了新的高效途径,有望推动过程分析和优化的发展。
[Event Detection and Classification for Long Range Sensing of Elephants Using Seismic Signal]
📅 发布日期: 2025-09-03
- 👥 作者: Jaliya L. Wijayaraja, Janaka L. Wijekoon, Malitha Wijesundara
- 🎯 研究目的: 利用地震信号检测大象是解决人象冲突(HEC)的新兴研究方向。尽管现有方法取得了有希望的结果,但它们严重依赖人工分类大象足迹,这限制了其在自然环境中实时应用的潜力。本研究旨在解决这一局限性,并基于现有工作,引入一个针对资源受限实现、兼顾准确性和计算效率的分类框架,以实现大象足迹的自动事件检测和分类。
- ⭐ 主要发现: 本文提出了一个针对资源受限实现的大象地震信号事件检测和分类框架,旨在提高准确性和计算效率。作为该框架的一部分,研究引入了一种新颖的事件检测技术,名为“情境定制窗口”(Contextually Customized Windowing, CCW),该技术专门为检测大象足迹而设计。通过与短时平均/长时平均(Short-Term Average/Long-Term Average, STA/LTA)等传统方法进行比较评估,CCW在检测大象足迹方面表现出优越的性能。这一框架和CCW技术的提出,为实时、自动化地监测大象活动提供了有效解决方案,有助于缓解人象冲突,并支持野生动物保护工作。
[Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers]
📅 发布日期: 2025-09-02
- 👥 作者: Isaac Ronald Ward, Mark Paral, Kristopher Riordan, Mykel J. Kochenderfer
- 🎯 研究目的: 在大型地下环境中自主控制四旋翼飞行器在环境勘测、采矿作业和搜救等领域具有广泛应用。基于学习的控制器是一种有吸引力的自主控制方法,但已知其泛化能力不佳,尤其是在训练时未曾遇到的“分布外”(out-of-distribution)环境中。本研究旨在通过结合基于学习的控制器和安全控制器,提高四旋翼飞行器在地下环境中的韧性,使其能够在遇到不熟悉环境时保持安全运行。
- ⭐ 主要发现: 本文提出了一种结合基于学习的控制器和安全控制器的方法,以提高四旋翼飞行器在地下环境中的韧性。研究训练了一个基于归一化流(normalizing flow)的环境先验模型,该模型能够提供四旋翼飞行器当前所处环境与训练数据分布的“距离”度量。这个度量被用作运行时监控器,允许系统在飞行器处于足够“分布外”时,从基于学习的控制器切换到安全控制器。在基于模拟3D洞穴环境的点对点导航任务中,该方法得到了基准测试,结果表明它显著提高了四旋翼飞行器在复杂和不熟悉地下环境中的自主导航能力和安全性。
[Probabilistically stable revision and comparative probability: a representation theorem and applications]
📅 发布日期: 2025-09-02
- 👥 作者: Krzysztof Mierzewski
- 🎯 研究目的: 本文旨在深入研究由Leitgeb(2013)提出的“信念稳定性规则”,该规则将范畴性信念定义为“概率稳定命题”(即主体赋予持久高可信度的命题),并作为理性接受的准则。此规则进一步衍生出一类“概率稳定信念修正算子”,这些算子描述了主体在通过贝叶斯条件化更新其可信度,并同时遵守其全有或全无信念的稳定性规则时,信念动态变化的过程。本研究的核心目的是,针对这些概率稳定修正算子,提供一个完整的刻画,从而深入理解这种特定类型的信念修正机制。
- ⭐ 主要发现: 本论文的核心贡献在于证明了一个重要的表示定理。该定理对概率稳定修正算子进行了完整的刻画,从而提供了对其结构和行为的全面理解。此外,这项工作还为这些算子提供了一种“定性”的选择函数语义。这意味着,除了其概率基础之外,这些修正算子还可以通过一种基于选择函数(尽管摘要中未完全展开其非…部分)的定性框架来理解和建模,为信念修正理论带来了新的视角和分析工具。
[Quantifying the Social Costs of Power Outages and Restoration Disparities Across Four U.S. Hurricanes]
📅 发布日期: 2025-09-02
- 👥 作者: Xiangpeng Li, Junwei Ma, Bo Li, Ali Mostafavi
- 🎯 研究目的: 本研究的背景是灾害影响的多面性,即人口密集区对总体负担的贡献较大,而人口稀疏但受灾严重的地区在个体层面承受着不成比例的苦难。鉴于此,研究旨在引入一个量化停电社会影响的框架。该框架通过将客户加权停电暴露转化为剥夺程度的衡量指标,并将福利指标与三个关键恢复指标(每客户平均停电天数、恢复持续时间、相对恢复率)相结合,从而提供一种标准化的方法,以更全面地理解和评估停电的社会成本及其恢复差异。
- ⭐ 主要发现:
- 创新框架: 论文提出了一种新颖的框架,用于量化停电的社会影响。该框架的核心创新在于将客户加权停电暴露转化为具体的“剥夺程度”衡量指标,并将其与福利指标以及三个关键的恢复指标(即每客户平均停电天数、恢复持续时间和相对恢复率)进行整合。
- 数据与方法: 这些恢复指标是基于EAGLE I的连续观测数据计算得出,并与邮政编码区域的人口统计数据进行了关联,确保了分析的精细度和相关性。
- 实际应用: 该框架已成功应用于美国四次重大飓风事件,包括2024年的Beryl(德克萨斯州)、Helene(佛罗里达州)、Milton(佛罗里达州)以及2021年的Ida(路易斯安那州)。
- 重要意义: 这一标准化的分析流程首次提供了一种系统且可重复的方法,用于评估和比较不同灾害事件中停电的社会成本和恢复过程中的差异,为政策制定者和应急管理人员提供了宝贵的工具,以制定更公平、有效的灾害响应和恢复策略。
[On sources to variabilities of simple cells in the primary visual cortex: A principled theory for the interaction between geometric image transformations and receptive field responses]
📅 发布日期: 2025-09-02
- 👥 作者: Tony Lindeberg
- 🎯 研究目的: 本研究旨在提出一个原则性理论,以建模视觉观察者在感知环境中的物体和时空事件时,几何图像变换与初级视皮层(V1)中简单细胞的感受野响应之间的相互作用。具体而言,它致力于解释在均匀空间缩放、空间仿射变换、伽利略变换和时间缩放等多种几何变换下,感受野如何响应并保持对视觉刺激的鲁棒性,从而深入理解视觉信息处理的机制。
- ⭐ 主要发现: 该论文的核心贡献在于构建了一个关于几何图像变换与感受野响应相互作用的理论框架。其主要发现包括:
- 协变性原理: 论文提出并阐述了核心假设,即感受野族应在包括均匀空间缩放、空间仿射变换、伽利略变换和时间缩放等多种几何图像变换下保持协变性。
- 感受野形状的结构化扩展: 基于协变性原理,理论推导出感受野的形状必须根据相应图像变换的自由度进行系统性扩展。这意味着感受野的结构并非固定不变,而是动态适应变换。
- 跨视角响应匹配: 这种感受野形状的扩展机制使得在不同观察条件下(即图像经历不同几何变换时)计算出的感受野响应之间能够实现形式上的匹配。这为解释初级视皮层简单细胞响应的可变性来源提供了一个统一且具有解释力的理论基础,并对理解视觉系统如何实现对变换的感知不变性具有潜在影响。
[LUCIE-3D: A three-dimensional climate emulator for forced responses]
📅 发布日期: 2025-09-02
- 👥 作者: Haiwen Guan, Troy Arcomano, Ashesh Chattopadhyay, Romit Maulik
- 🎯 研究目的: 该研究旨在引入LUCIE-3D,一个轻量级的三维气候模拟器,其核心目标是捕捉大气层的垂直结构、响应气候变化的强迫(forcings),并同时保持计算效率和长期稳定性。该模型基于原始的LUCIE-2D框架构建,旨在通过将大气CO2作为强迫变量,并可选地整合预设的海表温度(SST),来模拟耦合的海洋-大气动力学,从而为气候变化研究提供一个高效且准确的工具。
- ⭐ 主要发现: LUCIE-3D模型取得了显著成果,证明了其在气候模拟方面的有效性。它采用了球形傅里叶神经算子(SFNO)作为核心骨架,并在跨越八个垂直σ层、长达30年的ERA5再分析数据上进行了训练。实验结果表明,LUCIE-3D成功地再现了气候平均值、变异性以及长期的气候变化信号,包括地表变暖和平流层冷却等关键现象。这表明LUCIE-3D能够准确捕捉复杂的垂直大气结构和气候变化响应,为未来的气候预测和研究提供了强大的计算工具。
[Ensemble-Based Event Camera Place Recognition Under Varying Illumination]
📅 发布日期: 2025-09-02
- 👥 作者: Therese Joseph, Tobias Fischer, Michael Milford
- 🎯 研究目的: 事件相机因其高动态范围和低延迟特性,在快速运动和复杂光照条件下表现出比传统相机更强的鲁棒性。尽管事件相机在视觉地点识别(VPR)领域的潜力已得到证实,但在剧烈光照变化下开发鲁棒的VPR框架仍然是一个悬而未决的研究问题。本文旨在解决这一挑战,通过提出一种新方法,充分利用事件相机的优势,以实现在严苛光照变化下更可靠的地点识别。
- ⭐ 主要发现: 本文提出了一种基于集成(ensemble-based)的事件相机地点识别方法,显著提升了在不同光照条件下的鲁棒性。与以往仅利用时间分辨率的事件相机集成方法不同,本文的创新之处在于采用了更广泛的融合策略。具体而言,该方法结合了来自多个事件到帧重建(event-to-frame reconstructions)、VPR特征提取器以及不同时间分辨率的序列匹配结果。这种多维度的融合策略使得系统在面对剧烈光照变化(例如,从白天到夜晚)时,能够实现显著增强的地点识别性能,为事件相机在复杂环境下的VPR应用开辟了新途径。
[Oyster-I: Beyond Refusal – Constructive Safety Alignment for Responsible Language Models]
📅 发布日期: 2025-09-02
- 👥 作者: Ranjie Duan, Jiexi Liu, Xiaojun Jia, Shiji Zhao, Ruoxi Cheng, Fengxiang Wang, Cheng Wei, Yong Xie, Chang Liu, Defeng Li, Yinpeng Dong, Yichi Zhang, Yuefeng Chen, Chongwen Wang, Xingjun Ma, Xingxing Wei, Yang Liu, Hang Su, Jun Zhu, Xinfeng Li, Yitong Sun, Jie Zhang, Jinzhao Hu, Sha Xu, Yitong Yang, Jialing Tao, Hui Xue
- 🎯 研究目的: 当前大型语言模型(LLMs)的安全机制主要侧重于防范恶意用户生成有害内容,通常将风险视为对抗性事件并依赖于防御性拒绝。然而,在现实世界中,风险也可能来自非恶意用户,他们可能正处于心理困境(例如,有自残意图)并寻求帮助。在这种情况下,模型简单的拒绝回应可能会导致用户重复、升级其行为,或转向不安全的平台,从而产生更糟糕的后果。本研究旨在超越传统的拒绝策略,引入一种以人为本的“建设性安全对齐(Constructive Safety Alignment, CSA)”范式,其核心目标是在有效防范恶意滥用的同时,积极引导脆弱用户获得安全且有益的结果。
- ⭐ 主要发现: 本文的核心贡献是提出了“建设性安全对齐(Constructive Safety Alignment, CSA)”这一以人为本的全新安全范式。与传统仅依赖拒绝的防御机制不同,CSA旨在实现双重目标:一是有效防范恶意用户滥用模型生成有害内容;二是在面对处于心理困境(如,有自残意图)的脆弱用户时,能够积极、建设性地引导他们获得安全且有益的帮助,而非简单拒绝。这种方法代表了语言模型安全策略从被动防御向主动、富有同理心的重大转变,有望显著提升用户福祉和负责任的AI交互体验。论文标题暗示该范式已在名为“Oyster-I”的系统中得到实现。
[RSCC: A Large-Scale Remote Sensing Change Caption Dataset for Disaster Events]
📅 发布日期: 2025-09-02
- 👥 作者: Zhenyuan Chen, Chenxi Wang, Ningyu Zhang, Feng Zhang
- 🎯 研究目的: 遥感技术在灾害监测中发挥着关键作用,然而现有数据集普遍存在缺乏时间序列图像对和详细文本标注的问题。当前资源主要以单时相图像为主,无法有效捕捉灾害随时间演变的动态影响。为解决这一不足,本研究旨在引入一个大规模的遥感变化描述数据集(RSCC),以弥合遥感数据在时间维度和语义理解上的鸿沟,从而促进针对灾害事件的双时相视觉-语言模型的稳健训练与评估。
- ⭐ 主要发现: 本文的核心贡献是提出了遥感变化描述(RSCC)数据集,这是一个大规模的基准数据集,专门用于灾害事件的遥感监测。RSCC数据集包含62,315对灾前/灾后图像,涵盖地震、洪水、野火等多种灾害类型,并配有丰富、类人化的变化描述文本。通过弥合遥感数据在时间维度和语义理解上的差距,RSCC数据集能够有效支持视觉-语言模型进行灾害感知的双时相理解任务的训练和评估。初步结果表明,RSCC数据集能够促进详细的灾害相关分析,为该领域未来的发展奠定基础。
[HydroVision: Predicting Optically Active Parameters in Surface Water Using Computer Vision]
📅 发布日期: 2025-09-02
- 👥 作者: Shubham Laxmikant Deshmukh, Matthew Wilchek, Feras A. Batarseh
- 🎯 研究目的: 随着计算机视觉,特别是模式识别和场景分类技术的不断发展,环境监测领域涌现出新的应用。深度学习为水质评估和污染检测提供了非接触式方法,这对于灾害响应和公共健康保护至关重要。本研究旨在开发并引入 HydroVision,一个基于深度学习的场景分类框架,其核心目标是从地表水的标准红绿蓝(RGB)图像中,准确估算多种光学活性水质参数。
- ⭐ 主要发现: 本文提出了 HydroVision 框架,这是一个创新的深度学习驱动的场景分类系统,能够从普通的 RGB 图像中预测关键的光学活性水质参数。这些参数包括叶绿素-a、叶绿素、有色可溶性有机物(CDOM)、藻蓝蛋白、悬浮沉积物和浊度。通过将水质参数的估算转化为场景分类问题,HydroVision 提供了一种高效、非接触式的水质监测解决方案。该系统支持早期发现污染趋势,并显著增强了监管机构在环境监测中的能力,为公共健康和灾害响应提供了重要的技术支持。
[An Observations-focused Assessment of Global AI Weather Prediction Models During the South Asian Monsoon]
📅 发布日期: 2025-09-02
- 👥 作者: Aman Gupta, Aditi Sheshadri, Dhruv Suri
- 🎯 研究目的: 本研究旨在对七个最先进的全球AI天气预报模型(包括FourCastNet、FourCastNet-SFNO、Pangu-Weather、GraphCast、Aurora、AIFS和GenCast)在南亚季风期间的表现进行一次以观测数据为中心的全面评估。研究的背景是AI天气预报模型的快速发展,但其在复杂区域性天气事件(如南亚季风)中,特别是与真实地面观测数据对比时的实际准确性,仍需深入探究。核心目标是评估这些模型在预测温度、风、全球动能谱、区域降水、云量、气旋轨迹及极端天气事件周围的超局部预测等关键气象要素时的能力,并特别强调与地面气象站观测数据的对比,以揭示AI模型在实际应用中的优势和局限性,为改进AI天气预报技术提供依据。
- ⭐ 主要发现:
- 大规模动力学预测尚可,但季风关键指标表现不足: 尽管AI模型在预测大规模天气动力学方面表现出合理准确性,但在南亚季风期间对一些关键气象指标(如区域降水、云量、气旋轨迹等)的预测上仍显不足。
- 与地面观测数据对比时误差显著更高: 研究发现,与再分析数据或传统预报相比,当AI模型的结果与地面气象站的实际观测数据进行对比时,其误差显著更高。这突显了AI模型在捕捉真实世界、局部尺度的气象现象方面存在的挑战。
- 中尺度动能和极端降水预测存在明显差异: 不同的AI天气预报模型在对流层中尺度动能的模拟以及极端降水事件的预测方面表现出显著差异和局限性,表明在处理复杂中尺度过程和极端天气事件时仍有改进空间。
- 评估维度全面: 本研究通过评估温度、风、全球动能谱、区域降水、云量、气旋轨迹预测以及极端天气事件周围的超局部预测等多个维度,对AI模型的性能进行了细致的剖析。
[ShortageSim: Simulating Drug Shortages under Information Asymmetry]
📅 发布日期: 2025-09-01
- 👥 作者: Mingxuan Cui, Yilan Jiang, Duo Zhou, Cheng Qian, Yuji Zhang, Qiong Wang
- 🎯 研究目的: 全球范围内的药品短缺对患者护理和医疗系统构成严重威胁。然而,由于制药供应链中存在根本性的信息不对称,监管干预措施的有效性仍未被充分理解。本研究旨在通过开发一个创新的多智能体仿真框架,模拟信息不对称下药品制造商、机构采购商和监管机构之间的复杂战略互动,从而深入理解药品短缺的动态及其监管干预的有效性。
- ⭐ 主要发现:
- 首创LLM多智能体仿真框架: 论文提出了 ShortageSim,这是首个基于大型语言模型(LLM)的多智能体仿真框架,专门用于模拟药品短缺问题。
- 模拟有限理性决策: 与假设完全理性和完整信息的传统博弈论模型不同,ShortageSim 创新性地利用LLM来模拟不确定性下具有有限理性(bounded-rational)的决策过程。
- 捕捉复杂战略互动: 该框架能够有效捕捉药品制造商、机构采购商和监管机构在应对短缺警报时的复杂战略互动。
- 动态建模与政策评估: 通过一个跨越多个季度的序贯生产博弈,ShortageSim 能够模拟美国食品药品监督管理局(FDA)的公告等因素如何影响药品短缺的动态和各方的决策。
- 潜在影响: ShortageSim 为评估和优化在信息不对称环境下的药品供应链监管政策提供了强大的新工具,有望显著提升对药品短缺机制的理解,并最终改善患者护理。
[SoccerHigh: A Benchmark Dataset for Automatic Soccer Video Summarization]
📅 发布日期: 2025-09-01
- 👥 作者: Artur Díaz-Juan, Coloma Ballester, Gloria Haro
- 🎯 研究目的: 视频摘要技术旨在从冗长视频中提取关键片段,生成简洁且信息丰富的总结,其在体育赛事(如足球)中应用尤为广泛,能自动生成精彩集锦,显著减轻体育媒体行业视频编辑的工作负担。然而,当前该领域面临的一大挑战是缺乏公开可用的高质量数据集,这严重阻碍了鲁棒的体育集锦生成模型的开发。本研究的核心目的正是为了弥补这一空白,通过构建并发布一个精心策划的足球视频摘要数据集,旨在为该任务提供一个标准的基准。
- ⭐ 主要发现: 本论文的主要贡献在于引入并详细介绍了“SoccerHigh”数据集,这是一个专为自动足球视频摘要任务设计的基准数据集。该数据集通过提供237场来自西班牙、法国等主要联赛的足球比赛的镜头边界信息,有效解决了该领域长期以来缺乏公开可用数据集的问题。SoccerHigh的发布不仅为研究人员开发和评估更先进的足球集锦生成模型提供了宝贵的资源,而且有望加速体育媒体行业中自动化视频编辑工具的进步,从而提高工作效率并降低成本。
[Facial Emotion Recognition does not detect feeling unsafe in automated driving]
📅 发布日期: 2025-09-01
- 👥 作者: Abel van Elburg, Konstantinos Gkentsidis, Mathieu Sarrazin, Sarah Barendswaard, Varun Kotian, Riender Happee
- 🎯 研究目的: 自动驾驶汽车的公众接受度与用户对其的信任和感知安全感密切相关。为了深入理解用户在自动驾驶情境下的感知风险,本研究旨在通过模拟实验,探究不同自动驾驶风格(平静与动态)以及外部事件(如横穿行人)如何影响乘客的感知舒适度与风险感。研究尤其关注面部情绪识别技术是否能有效检测乘客在自动驾驶过程中产生的不安全感或不适感。
- ⭐ 主要发现: 本研究对32名参与者进行了驾驶模拟器实验,收集了包括连续主观舒适度评分、运动数据、面部表情(通过网络摄像头)、皮肤电导、心率和眼动追踪等多模态数据。
- 核心实验结果显示:
- 乘客的连续主观感知风险评分表明,在自动驾驶汽车转弯和制动过程中会产生显著的不适感,随后在继续行驶时会感到放松甚至积极的舒适感。
- 动态驾驶风格比平静驾驶风格引起了更强烈的不适感。
- 横穿行人的出现对乘客的不适感没有显著影响。
- 最关键的发现是,面部情绪识别技术未能有效检测出自动驾驶情境下乘客所感受到的不安全感。
- 研究意义:这些发现对自动驾驶汽车的用户体验设计和安全监控系统具有重要指导意义。它挑战了将面部情绪识别作为评估自动驾驶乘客感知风险的可靠指标的假设,提示研究人员和工程师在开发未来自动驾驶系统时,应结合多模态数据进行综合判断,而非过度依赖单一的面部表情分析。
[Image Quality Enhancement and Detection of Small and Dense Objects in Industrial Recycling Processes]
📅 发布日期: 2025-09-01
- 核心实验结果显示:
- 👥 作者: Oussama Messai, Abbass Zein-Eddine, Abdelouahid Bentamou, Mickaël Picq, Nicolas Duquesne, Stéphane Puydarrieux, Yann Gavet
- 🎯 研究目的: 本研究旨在解决计算机视觉领域的两个关键挑战:一是在工业回收等特定环境中,对小型、密集且重叠的物体进行准确检测,这在计算机视觉中是一个公认的难题;二是对工业环境中常见的噪声图像进行质量提升。论文的核心目标是评估基于监督深度学习的方法在解决这些问题上的性能,并识别出最可靠的检测系统及其在工业应用中应对的具体挑战。
- ⭐ 主要发现:
- 论文通过使用一个新开发的、包含超过1万张图像和12万个实例的大型数据集,对基于监督深度学习的检测方法进行了深入分析。
- 研究评估了这些方法的性能、准确性和计算效率,成功识别出在工业应用中最可靠的物体检测系统,并阐明了这些系统在处理特定工业挑战时的有效性。
- 此外,论文还深入探讨了利用深度学习模型来改善工业噪声图像质量的方法。
- (根据摘要截断部分推断)研究介绍了一个基于全连接卷积的轻量级模型,用于图像质量的提升,这可能为工业环境中图像预处理提供了高效的解决方案。
[IS${}^3$ : Generic Impulsive–Stationary Sound Separation in Acoustic Scenes using Deep Filtering]
📅 发布日期: 2025-09-01
- 👥 作者: Berger Clémentine, Stamadiatis Paraskevas, Badeau Roland, Essid Slim
- 🎯 研究目的: 本研究旨在开发一种音频系统,能够对声学场景中的稳态背景声和孤立的瞬态声事件进行区分处理。这种区分处理的目的是为了对不同部分应用特定的处理方法,或者只关注其中一部分而忽略另一部分。该技术在现实世界中有广泛应用,包括鲁棒的自适应音频渲染系统(如均衡器或压缩)、语音混合中的爆破音衰减、噪声抑制或降噪、鲁棒的声学事件分类乃至生物声学等。为了实现这一目标,本研究旨在开发一种能够有效分离瞬态声事件和稳态背景声的方法。
- ⭐ 主要发现: 论文引入了一个名为 IS${}^3$ 的神经网络模型,专为瞬态-稳态声音分离(Impulsive–Stationary Sound Separation)而设计。IS${}^3$ 的核心贡献在于它能够利用深度滤波(deep filtering)方法,将声学场景中的瞬态声学事件从稳态背景声中有效分离出来。作为一个通用的预处理阶段,IS${}^3$ 为上述多种应用场景提供了强大的基础,能够显著提升音频处理系统的性能和鲁棒性,是该领域的一个重要创新。
[ReCap: Event-Aware Image Captioning with Article Retrieval and Semantic Gaussian Normalization]
📅 发布日期: 2025-09-01
- 👥 作者: Thinh-Phuc Nguyen, Thanh-Hai Nguyen, Gia-Huy Dinh, Lam-Huy Nguyen, Minh-Triet Tran, Trung-Nghia Le
- 🎯 研究目的: 现有图像字幕生成系统常生成通用描述,难以捕捉事件层面的语义信息,这对于新闻报道和数字档案等应用至关重要。这些系统通常只关注图像的可见内容,而忽略了时间、社会和历史背景。本研究旨在通过引入ReCap这一新颖的图像检索与字幕生成流程,利用相关文章的更广泛上下文信息,生成叙事丰富、事实准确的事件感知型图像字幕,从而克服现有视觉-语言模型的局限性。
- ⭐ 主要发现: 本文提出了ReCap,一个用于事件感知型图像检索和字幕生成的创新流水线,它通过整合外部文章的上下文信息,显著提升了字幕的叙事性和事实准确性。ReCap包含三个集成组件。其中,核心创新之一是一个鲁棒的两阶段文章检索系统:第一阶段利用DINOv2嵌入和全局特征相似性进行初步候选文章筛选;第二阶段则通过补丁级互近邻相似性进一步精炼检索结果。通过这种方式,ReCap能够有效捕捉图像背后的时间、社会和历史背景,生成比传统视觉-语言模型更具深度和情境感的字幕,对新闻报道和数字档案等领域具有重要意义。
[EZhouNet:A framework based on graph neural network and anchor interval for the respiratory sound event detection]
📅 发布日期: 2025-09-01
- 👥 作者: Yun Chu, Qiuhao Wang, Enze Zhou, Qian Liu, Gang Zheng
- 🎯 研究目的: 呼吸音听诊是呼吸道和肺部疾病早期诊断的关键方法,但其高度依赖于专业医护人员的经验,且过程主观、专家间存在差异。为解决这一问题,深度学习驱动的自动化分类方法应运而生,但多数研究集中于呼吸音的分类,而对呼吸音事件检测的研究相对有限。现有的声音事件检测方法通常依赖于帧级预测,再通过后处理生成事件级输出,这使得直接学习事件的间隔边界变得困难。此外,许多方法仅能处理固定长度的音频,限制了它们在可变长度呼吸音上的适用性。本研究旨在提出一个基于图神经网络和锚定间隔(anchor interval)的新框架EZhouNet,以克服现有方法的局限性,实现更准确、更直接的呼吸音事件检测,从而提高呼吸系统疾病诊断的客观性和自动化水平。
- ⭐ 主要发现: 本文提出了一种名为EZhouNet的新型框架,用于呼吸音事件检测,旨在解决现有方法在学习事件边界和处理可变长度音频方面的挑战。EZhouNet的核心创新在于其结合了图神经网络(Graph Neural Network, GNN)和锚定间隔(Anchor Interval)机制。图神经网络的引入有望更好地捕捉呼吸音事件之间复杂的时序关系和上下文信息,而锚定间隔机制则可能允许模型直接学习事件的起始和结束边界,避免了传统帧级预测后处理带来的复杂性和不准确性。通过这种集成方法,EZhouNet有望能够更有效地处理可变长度的呼吸音数据,并提供更精确的事件定位。这一框架的提出,为呼吸音事件检测领域提供了一个新颖且更鲁棒的解决方案,有望显著提升呼吸系统疾病早期诊断的自动化和客观性,减少对专家经验的主观依赖。
[CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection]
📅 发布日期: 2025-09-01
- 👥 作者: Zhijie Zhong, Zhiwen Yu, Yiu-ming Cheung, Kaixiang Yang
- 🎯 研究目的: 时间序列异常检测(Time Series Anomaly Detection)中的评估指标对于模型性能评估至关重要。然而,现有指标存在多项局限性,包括区分度不足、对超参数的强依赖性、对扰动的敏感性以及高计算开销。本研究旨在解决这些问题,提出一种新颖的评估指标,以更准确、鲁棒且高效地衡量时间序列异常检测模型的性能。
- ⭐ 主要发现: 本论文的核心贡献是引入了一种名为“置信度-一致性评估”(Confidence-Consistency Evaluation, CCE)的新型评估指标。CCE能够同时衡量模型预测的置信度及其不确定性的一致性。具体而言,该方法通过采用贝叶斯估计来量化异常分数的内在不确定性,进而构建全局和事件级别的置信度与一致性分数,最终形成一个简洁的CCE指标。理论分析和实验结果均表明,CCE具有严格的有界性,并对分数扰动表现出Lipschitz鲁棒性。这些特性使得CCE成为一个比现有指标更具区分度、更稳定、更鲁棒的评估工具,有望显著提升时间序列异常检测模型的评估质量和可靠性。
[ASCENDgpt: A Phenotype-Aware Transformer Model for Cardiovascular Risk Prediction from Electronic Health Records]
📅 发布日期: 2025-08-31
- 👥 作者: Chris Sainsbury, Andreas Karwath
- 🎯 研究目的: 旨在开发一个基于Transformer的模型ASCENDgpt,用于从纵向电子健康记录(EHRs)中进行心血管疾病风险预测。研究背景是EHRs中原始ICD编码的高度复杂性和维度,这给模型学习带来了挑战。核心目标是引入一种新颖的表型感知分词方案,将大量原始诊断编码映射到更具临床意义的表型,从而在保留语义信息的同时显著降低词汇量和数据稀疏性,最终实现对心肌梗死、中风等多种心血管事件的精确时间到事件预测。
- ⭐ 主要发现:
- 引入ASCENDgpt模型: 论文提出并开发了ASCENDgpt,一个专门用于从纵向电子健康记录中预测心血管风险的Transformer模型。
- 创新的表型感知分词方案: 该模型引入了一种新颖的表型感知分词方案,将47,155个原始ICD编码映射到176个具有临床意义的表型分词。
- 显著的数据整合与语义保留: 这一映射方案实现了诊断编码99.6%的整合,同时有效保留了原始诊断信息的语义完整性。
- 词汇量大幅缩减: 相较于直接使用原始ICD编码,该方法将总词汇量减少了77.9%,降至10,442个分词,极大地提高了模型的效率和可解释性。
- 预训练与微调策略: ASCENDgpt首先在来自19,402名独特个体的序列数据上,通过掩码语言建模目标进行预训练,随后针对五种心血管结局(包括心肌梗死、中风和主要不良心血管事件等)的时间到事件预测任务进行微调。
[ProCause: Generating Counterfactual Outcomes to Evaluate Prescriptive Process Monitoring Methods]
📅 发布日期: 2025-08-31
- 👥 作者: Jakob De Moor, Hans Weytjens, Johannes De Smedt
- 🎯 研究目的: 规范性流程监控(PresPM)是流程挖掘的一个子领域,旨在通过基于事件日志数据的实时干预来优化流程。然而,由于数据集中缺乏所有干预行动的真实结果(ground-truth outcomes),评估PresPM方法面临挑战。现有的因果推断(CI)领域生成式深度学习方法RealCause常被用于估计拟议干预行动的结果以评估新策略,但它忽略了流程数据中的时间依赖性,并且仅依赖于单一的CI模型架构(TARNet),从而限制了其有效性。本研究旨在解决RealCause的这些局限性,提出一种更通用、更有效的方法来生成反事实结果,以准确评估PresPM方法。
- ⭐ 主要发现: 本文引入了ProCause,这是一种新颖的生成式方法,旨在克服现有反事实结果生成方法(如RealCause)在评估规范性流程监控(PresPM)方法时的不足。ProCause的核心创新在于它支持序列模型(例如长短期记忆网络LSTMs)和非序列模型,从而能够更好地捕捉流程数据中固有的时间依赖性,这是RealCause所忽视的关键因素。通过支持多种模型架构,ProCause显著提高了生成反事实结果的灵活性和准确性,从而为PresPM方法的评估提供了更可靠的依据。这一改进有望提升PresPM策略的开发和验证效率,使其能够更有效地优化实际流程。
[EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions]
📅 发布日期: 2025-08-31
- 👥 作者: Dinh-Khoi Vo, Van-Loc Nguyen, Minh-Triet Tran, Trung-Nghia Le
- 🎯 研究目的: 自由形式描述(free-form captions)的事件驱动图像检索是一个重大挑战,要求模型不仅理解视觉特征,还要掌握潜在的事件语义、上下文和现实世界知识。传统的视觉-语言检索方法在处理描述抽象事件、隐含因果关系、时间上下文或包含长而复杂叙述的描述时,往往表现不佳。本研究旨在解决这些问题,提出一种能够有效处理复杂且抽象描述的事件感知多模态图像检索框架。
- ⭐ 主要发现: 论文引入了一个多阶段检索框架,以应对现有方法在处理复杂事件描述时的不足。该框架结合了密集文章检索(dense article retrieval)、事件感知语言模型重排序(event-aware language model reranking)和高效图像收集,随后进行描述引导的语义匹配(caption-guided semantic matching)和排名感知选择(rank-aware selection)。具体而言,研究利用Qwen3进行文章搜索,Qwen3-Reranker进行上下文对齐,并使用Qwen2-VL进行精确的图像评分。摘要指出,为进一步提升性能和鲁棒性,研究还采取了其他措施(具体细节在提供的摘要中未完全披露),表明该方法旨在显著提高在处理复杂、抽象事件描述时的图像检索效果。
[Use ADAS Data to Predict Near-Miss Events: A Group-Based Zero-Inflated Poisson Approach]
📅 发布日期: 2025-08-31
- 👥 作者: Xinbo Zhang, Montserrat Guillen, Lishuai Li, Xin Li, Youhua Frank Chen
- 🎯 研究目的: 驾驶行为大数据(通过多传感器远程信息技术获取)在理解驾驶行为、进行风险评估、保险定价和目标干预方面发挥着越来越重要的作用,并已推动基于使用量的保险(UBI)成为主流。近距离事故(Near-Miss Events, NMEs)作为一种由远程信息技术捕获的事件,为基于理赔的风险评估提供了一个及时且有价值的替代方案。然而,每周NMEs数据存在显著的统计挑战:它们通常非常稀疏、高度零膨胀(即大量观察值为零),并且即使在暴露归一化后,驾驶行为也表现出高度的异质性。本研究旨在解决这些挑战,通过分析多传感器远程信息数据和ADAS(高级驾驶辅助系统)警告,揭示传统统计模型在处理此类数据集时的欠拟合问题,并提出一种新型的统计框架来准确、可解释地预测每周的近距离事故风险。
- ⭐ 主要发现: 本研究针对近距离事故(NMEs)数据固有的稀疏性、高度零膨胀和行为异质性问题,提出了一系列创新的基于群体(Group-Based)的零膨胀泊松(Zero-Inflated Poisson, ZIP)框架。这些框架通过期望最大化(EM)算法学习潜在的驾驶行为群体,并为每个群体拟合基于偏移量(offset-based)的计数模型。与传统统计模型相比,该方法能够更有效地处理NMEs数据的复杂特性,从而生成经过良好校准且具有高度可解释性的每周风险预测。研究结果表明,所提出的ZIP框架能够显著提升对近距离事故事件的预测能力,为风险评估、保险定价和驾驶员干预提供了更精确和细致的工具,并利用了多传感器远程信息数据和ADAS警告的丰富信息。
[TranCIT: Transient Causal Interaction Toolbox]
📅 发布日期: 2025-08-30
- 👥 作者: Salar Nouri, Kaidi Shao, Shervin Safavi
- 🎯 研究目的: 神经科学领域中,从非平稳神经信号中量化瞬态因果交互是一个核心挑战。现有传统方法往往难以有效处理短暂的神经事件,而先进的、事件特异性技术在Python生态系统中又缺乏易于获取的实现。本研究旨在通过引入TranCIT(瞬态因果交互工具箱),一个开源Python包,来填补这一空白,提供一个全面的分析管道,以准确检测事件驱动的因果效应。
- ⭐ 主要发现:
- 核心贡献与工具发布: 论文推出了TranCIT(Transient Causal Interaction Toolbox),一个开源Python包,专门用于解决非平稳神经信号中瞬态因果交互的量化问题,弥补了现有工具的不足。
- 全面的分析管道: TranCIT整合了一个综合的分析流程,包括格兰杰因果关系 (Granger Causality)、传递熵 (Transfer Entropy),以及更鲁棒的基于结构因果模型 (Structural Causal Model) 的动态因果强度 (Dynamic Causal Strength, DCS) 和相对动态因果强度 (relative Dynamic Causal Strength, rDCS)。这些方法旨在克服传统方法的局限性,能够准确检测事件驱动的因果效应。
- 实用性验证: 论文通过成功捕获高同步性区域中的因果关系,有力地证明了TranCIT的实用性和有效性,为神经科学研究提供了一个强大且易于使用的工具。
[A Framework for Task and Motion Planning based on Expanding AND/OR Graphs]
📅 发布日期: 2025-08-30
- 👥 作者: Fulvio Mastrogiovanni, Antony Thomas
- 🎯 研究目的: 鉴于空间环境中机器人自主性面临的独特挑战(包括高感知和运动不确定性、严格的运动学约束以及有限的人工干预机会),任务与运动规划(TMP)对于自主服务、地表作业或在轨任务等至关重要。TMP通过将任务建模为离散动作序列并整合连续运动可行性评估来解决这些问题。本研究旨在引入一个基于扩展AND/OR图的TMP框架,以应对这些复杂场景下的机器人自主规划需求。
- ⭐ 主要发现: 本文的核心贡献是引入了一个名为TMP-EAOG(基于扩展AND/OR图的任务与运动规划)的新型TMP框架。该框架的创新点在于它将任务层面的抽象编码在一个AND/OR图中,并且该图在规划执行过程中能够迭代地进行扩展。TMP-EAOG的关键特性还在于其能够在规划循环中(in-the-loop)执行运动规划评估,以确保动作序列的连续运动可行性。论文将展示该框架在不同场景下的良好适应性,为解决空间环境中机器人自主规划的复杂性提供了新的有效途径。
[SIGMUS: Semantic Integration for Knowledge Graphs in Multimodal Urban Spaces]
📅 发布日期: 2025-08-30
- 👥 作者: Brian Wang, Mani Srivastava
- 🎯 研究目的: 现代城市空间配备了日益多样化的传感器,产生海量多模态数据。这些数据对于识别和推理城市中发生的重要事件(如重大紧急情况、文化社会事件以及自然灾害)至关重要。然而,当前存在的主要问题是,这些多模态数据可能分散在多个来源,且难以有效整合。这主要是因为识别与事件相关的多模态数据之间的关系,以及理解构成事件的不同组成部分,都高度依赖人工推理。这种碎片化和对人工的依赖阻碍了对事件原因的准确识别,也限制了对未来事件规模和强度的预测能力。本研究旨在通过语义集成技术,克服多模态数据整合的挑战,从而更高效、准确地理解和预测城市事件。
- ⭐ 主要发现: 论文提出了SIGMUS框架,旨在解决城市多模态数据碎片化和整合困难的根本问题。SIGMUS的核心创新在于其“语义集成”方法,该方法利用“知识图谱”来结构化地表示和管理城市空间中多模态数据之间的复杂关系以及事件的组成部分。通过这种方式,SIGMUS能够自动化并标准化地从异构数据源中提取、关联和推理信息,从而减少对人工推理的依赖。这一贡献有望显著提高对城市事件原因的识别能力,并为在事件萌芽阶段预测其规模和强度提供更坚实、更准确的基础,从而对城市管理、应急响应和智能决策产生深远影响。
Revealing Hidden Precursors to Earthquakes via a Stress-Sensitive Transformation of Seismic Noise
📅 发布日期: 2025-08-29
- 👥 作者: Nader Shakibay Senobari
- 🎯 研究目的: 地震预测长期以来一直是科学领域中最难以捉摸的挑战之一。尽管实验室实验和模拟表明地震前兆应该存在,但在实际地震记录中却未能观察到可靠的信号。这引发了一个关键问题:这些前兆是自然界中不存在,还是仅仅隐藏在背景噪声中?本研究旨在通过开发一种新的应力敏感变换方法,揭示并追踪这些隐藏的、与应力演变相关的地震前兆信号,以期克服现有地震预测的难题。
- ⭐ 主要发现: 论文引入了一种创新的、应力敏感的频域变换方法。这种变换通过追踪相邻频带之间的能量差异,能够有效地分离出与剪切应力和正应力演变相关的微弱频谱变化。将该变换应用于实验室声发射数据以及七次主要地震(震级介于Mw 5.9至9.0之间,包括2011年日本东北地震和2023年土耳其-叙利亚地震)的地震记录,结果一致显示出清晰的地震前兆信号,表现为独特的弧形轨迹。这一发现表明,地震前兆可能并非不存在,而是被隐藏在噪声中,并且可以通过这种新方法有效揭示,为地震预测带来了新的希望和潜在的突破。
[The Demon is in Ambiguity: Revisiting Situation Recognition with Single Positive Multi-Label Learning]
📅 发布日期: 2025-08-29
- 👥 作者: Yiming Lin, Yuchen Niu, Shang Wang, Kaizhu Huang, Qiufeng Wang, Xiao-Bo Jin
- 🎯 研究目的: 情境识别(Situation Recognition, SR)是计算机视觉中的一项基础任务,旨在通过识别图像中的关键事件及其相关实体,提取结构化的语义摘要。该任务通常包含动词分类、语义角色标注和语义角色定位三个子任务。然而,现有方法将动词分类视为单标签问题,这未能解决视觉事件识别中固有的模糊性,即同一图像可能合理地对应多个动词类别。本研究旨在深入分析并解决这一核心问题,通过重新审视情境识别中的动词分类范式,以更准确地捕捉图像的复杂语义。
- ⭐ 主要发现: 本文提出了三项关键贡献。首先,通过全面的分析,论文揭示并量化了视觉事件识别中固有的模糊性,明确指出将动词分类视为单标签问题的局限性,因为多个动词类别可能合理地描述同一图像,这正是“歧义之魔”(The Demon is in Ambiguity)所在。其次,为了有效应对这种模糊性,论文重新审视了情境识别任务,并创新性地引入了“单正多标签学习”(Single Positive Multi-Label Learning)范式来解决动词分类问题。虽然具体细节未完全展开,但该方法旨在通过允许模型预测多个合理动词来更准确地捕捉图像的复杂语义。这项研究为情境识别领域提供了一个新的视角和解决方案,有望显著提升模型在处理视觉歧义时的性能和鲁棒性。
[Inferring Effects of Major Events through Discontinuity Forecasting of Population Anxiety]
📅 发布日期: 2025-08-29
- 👥 作者: Siddharth Mangalik, Ojas Deshpande, Adithya V. Ganesan, Sean A. P. Clouston, H. Andrew Schwartz
- 🎯 研究目的: 评估特定社区事件对心理健康的影响对于制定公共卫生政策至关重要。然而,仅预测心理健康分数对事件如何影响社区福祉的洞察有限。计量经济学中的准实验设计,如纵向回归不连续性设计(LRDD),能够帮助研究人员从观察数据中推断出更具因果性的影响。LRDD旨在推断由特定时间事件引起的结果(例如焦虑得分的不连续性)变化的大小。本研究的目的是通过改进LRDD,提供一个更强大的统计学习框架,以预测和理解重大事件对人口焦虑等心理健康指标的因果效应。
- ⭐ 主要发现: 本文的核心贡献在于将纵向回归不连续性设计(LRDD)从传统的预测方法扩展到一个创新的统计学习框架。这一新框架超越了简单的预测,能够估计未来可能出现的不连续性(即特定时间点上结果的突然转变)以及线性趋势(斜率)的变化。通过这种方法,研究人员能够更准确地推断重大事件对人口焦虑等心理健康指标的未来影响,从而为公共卫生政策的制定提供更深入、更具因果洞察力的依据。
[NSPDI-SNN: An efficient lightweight SNN based on nonlinear synaptic pruning and dendritic integration]
📅 发布日期: 2025-08-29
- 👥 作者: Wuque Cai, Hongze Sun, Jiayi He, Qianqian Liao, Yunliang Zang, Duo Chen, Dezhong Yao, Daqing Guo
- 🎯 研究目的: 脉冲神经网络(SNNs)作为模拟生物神经元的神经网络,在当前人工智能技术研究中受到广泛关注。然而,尽管生物神经元中的树突具有高效的信息处理和计算能力,现有SNN的神经元结构却很少能匹配树突的复杂性。本研究旨在弥补这一差距,受神经元树突的非线性结构和高度稀疏特性启发,提出一种高效、轻量级的SNN方法——NSPDI-SNN,以提升SNN的信息处理能力和效率。
- ⭐ 主要发现:
- 提出NSPDI-SNN方法: 本研究提出了一种基于非线性突触剪枝和树突整合的高效轻量级脉冲神经网络(NSPDI-SNN)。
- 引入非线性树突整合(NDI): 在NSPDI-SNN中,引入了非线性树突整合(NDI)机制,旨在显著提升神经元对时空信息的表示能力。
- 结合非线性剪枝: 该方法结合了非线性突触剪枝技术,以实现网络的轻量化和高效性。
- 实现异构状态转换比率: 论文还实现了树突脉冲的异构状态转换比率。这些创新共同旨在构建一个更接近生物学原理、同时具备高性能和低资源消耗的SNN模型。
[Spiking Decision Transformers: Local Plasticity, Phase-Coding, and Dendritic Routing for Low-Power Sequence Control]
📅 发布日期: 2025-08-29
- 👥 作者: Vishal Pandey, Debasmita Biswas
- 🎯 研究目的: 基于Transformer架构的强化学习智能体在序列决策任务中表现出色,但其对密集矩阵运算的依赖导致能耗高,不适用于资源受限的边缘计算平台。尽管脉冲神经网络(SNNs)有望实现超低功耗、事件驱动的推理,但此前尚未有工作能将脉冲动力学与基于回报的序列建模(如决策Transformer)无缝结合。本研究旨在弥合这一鸿沟,开发一种低功耗的序列控制方法,将SNN的节能优势与决策Transformer的序列建模能力相结合,以适应边缘计算平台的需求。
- ⭐ 主要发现:
- 提出SNN-DT架构: 论文引入了脉冲决策Transformer (Spiking Decision Transformer, SNN-DT),它创造性地将漏积分-发放(Leaky Integrate-and-Fire, LIF)神经元嵌入到每个自注意力(self-attention)模块中,从而将SNN的低功耗特性融入到Transformer的架构中。
- 端到端训练机制: SNN-DT采用替代梯度(surrogate gradients)进行端到端训练,有效解决了SNN训练的挑战,使其能够像传统深度学习模型一样进行优化。
- 生物启发式创新: 模型融入了多项生物启发式机制,以增强性能和能效:
- 三因子可塑性(three-factor plasticity): 模拟生物学习机制,促进更有效的权重更新。
- 相移脉冲式位置编码(phase-shifted spike-based positional encodings): 利用脉冲的相位信息编码序列中的位置,提高了信息表达的效率。
- 轻量级树突路由模块(lightweight dendritic routing module): 进一步优化信息处理路径,降低计算和能耗。
- 性能表现: 实验结果表明,SNN-DT在性能上能够达到或超越现有技术水平(根据摘要的截断部分推断)。
- 潜在影响: 本研究成功将SNN的超低功耗特性与决策Transformer的强大序列建模能力相结合,为在能源受限的边缘设备上部署高效、智能的强化学习智能体开辟了新途径,对未来低功耗AI硬件和应用具有重要意义。
[ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding]
📅 发布日期: 2025-08-29
- 👥 作者: Hao Lu, Jiahao Wang, Yaolun Zhang, Ruohui Wang, Xuanyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu
- 🎯 研究目的: 视频多模态大语言模型(Video-MLLMs)在视频理解方面取得了显著进展,但仍易受幻觉问题困扰,即生成与视频输入不一致或不相关的内容。以往的视频幻觉基准主要关注短视频,并将幻觉归因于强语言先验、帧缺失或视觉-语言偏差。然而,这些解释未能完全涵盖所有幻觉类型。本研究指出,有时模型即使在帧级别语义正确的情况下,仍会生成不正确的输出。我们将这种幻觉定义为“语义聚合幻觉”(Semantic Aggregation Hallucination, SAH),它产生于模型在聚合帧级信息以形成对长视频的整体理解过程中。因此,本研究旨在解决现有基准未能充分评估长视频中语义聚合幻觉的问题,并为此类幻觉提供一个专门的基准。
- ⭐ 主要发现: 本研究的核心贡献在于首次识别并定义了一种新型的视频幻觉——“语义聚合幻觉”(SAH),其特点是模型在帧级别语义理解正确的情况下,却在聚合这些信息以形成对长视频的整体理解时产生错误。为了系统地评估和量化Video-MLLMs在长视频理解中出现的SAH,论文提出了一个名为ELV-Halluc的基准。该基准旨在揭示现有模型在处理长视频时,如何将帧级信息整合成连贯、准确的语义表示方面的不足。ELV-Halluc的引入将为研究人员提供一个关键工具,以更深入地理解和解决长视频理解中特有的幻觉问题,从而推动开发更鲁棒、更准确的视频多模态大语言模型。
[MMSearch-Plus: A Simple Yet Challenging Benchmark for Multimodal Browsing Agents]
📅 发布日期: 2025-08-29
- 👥 作者: Xijia Tao, Yihua Teng, Xinxing Su, Xinyu Fu, Jihao Wu, Chaofan Tao, Ziru Liu, Haoli Bai, Rui Liu, Lingpeng Kong
- 🎯 研究目的: 随着大型多模态语言模型(MLLMs)越来越多地被部署为网络代理,本研究旨在解决现有多模态浏览基准的局限性。许多现有基准可以通过浅层、固定的工作流程(如高召回率的图像搜索和附近的文本掩码)来解决,未能真正挑战模型在细粒度视觉推理、来源验证和长程工具使用等方面的多模态能力。因此,本研究的核心目标是引入一个简单但极具挑战性的新基准MMSearch-Plus,以更真实地评估MLLMs的深层多模态理解能力。
- ⭐ 主要发现:
- 引入MMSearch-Plus基准: 论文提出了MMSearch-Plus,一个包含311个任务的新型基准,旨在高度要求多模态理解能力,同时保持与强大的纯文本浏览套件相当的难度。
- 任务设计挑战性: MMSearch-Plus中的每个任务都经过精心构建,包含多个微弱、局部的视觉信号。这些信号必须被模型提取,通过迭代的文本-图像搜索进行传播,并在检索噪声下进行交叉验证后才能得出答案。这种设计有效避免了现有基准中浅层解决方案的有效性,强制模型进行更深层次的多模态推理和工具使用。
- 策展程序创新: 论文提出了一种名为“时空外推(Spatial-Temporal Extrapolation)”的独特策展程序来构建这些问题,确保了任务的复杂性和对真实多模态能力的考察。
- 推动领域发展: MMSearch-Plus为评估MLLMs作为网络代理的真实多模态理解、细粒度视觉推理、来源验证和长程工具使用能力提供了一个更具挑战性和现实意义的平台,有望推动该领域的研究进展,促使开发出更强大、更智能的多模态代理。
[Radially Distorted Homographies, Revisited]
📅 发布日期: 2025-08-28
- 👥 作者: Mårten Wadenbäck, Marcus Valtonen Örnhag, Johan Edstedt
- 🎯 研究目的: 单应性变换是几何计算机视觉和投影几何中普遍存在的变换,其估计是许多计算机视觉任务中的关键步骤。然而,在处理受相机镜头几何畸变(特别是径向畸变)影响的真实图像时,为了获得有用的估计结果,通常需要同时确定单应性变换和镜头畸变。本研究旨在重新审视径向畸变下的单应性变换问题,并特别关注两种图像之间存在径向畸变的三种概念上不同的配置:(i) 仅一幅图像存在畸变,(ii) 两幅图像存在相同畸变,以及 (iii) 两幅图像存在独立畸变。研究目的在于为这些复杂情况提供更准确、更鲁棒的单应性及畸变联合估计方法。
- ⭐ 主要发现: 论文深入探讨了在径向畸变存在的情况下,如何有效地估计单应性变换这一核心问题。它系统地识别并分析了两种图像之间径向畸变的三种关键配置:即仅一幅图像受畸变影响、两幅图像受相同畸变影响、以及两幅图像受独立畸变影响。尽管摘要不完整,但根据标题和问题设定,论文的核心贡献在于针对这些特定配置,提出了或改进了同时估计单应性变换和径向畸变的方法,从而克服了传统单应性估计在真实世界图像畸变下的局限性,有望为计算机视觉任务提供更精确的几何变换估计。
[Mixture of Contexts for Long Video Generation]
📅 发布日期: 2025-08-28
- 👥 作者: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
- 🎯 研究目的: 长视频生成本质上是一个长上下文记忆问题,要求模型在长时间范围内有效保留和检索关键事件,同时避免信息崩溃或漂移。然而,将扩散Transformer扩展到长上下文视频生成时,由于自注意力机制的二次方计算成本,导致内存和计算资源难以承受,难以对长序列进行优化。本研究旨在解决长视频生成中存在的长上下文记忆挑战,并克服现有扩散Transformer在处理长序列时的计算和内存瓶颈。
- ⭐ 主要发现: 本文将长上下文视频生成重新定义为一个内部信息检索任务,并提出了一种名为“上下文混合体”(Mixture of Contexts, MoC)的简单、可学习的稀疏注意力路由模块。MoC被设计为一个高效的长期记忆检索引擎,其核心创新在于:每个查询能够动态地选择少量信息丰富的块(chunks)以及强制性的锚点(如视频标题、局部窗口)进行关注。此外,MoC采用了因果路由(causal routing)机制,有效防止了循环闭合(loop closures)问题。这一方法有望显著提升长视频生成模型处理长序列的能力,降低计算和内存开销,为生成高质量、长时程视频提供了新的解决方案。
[WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations]
📅 发布日期: 2025-08-28
- 👥 作者: Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim
- 🎯 研究目的: 大型音频语言模型(LALMs)已将语言理解扩展到听觉领域,但其执行低级听觉任务(如音高和持续时间检测)的能力仍未得到充分探索。然而,对于模型需要根据细粒度声学线索对不熟悉声音进行推理的真实世界、分布外(out-of-distribution)任务而言,这种低级听觉能力至关重要。为了弥补这一研究空白,本研究旨在引入World-of-Whale基准(WoW-Bench),利用海洋哺乳动物的发声来系统评估LALMs的低级听觉感知和认知能力。
- ⭐ 主要发现:
- 引入WoW-Bench基准: 论文的核心贡献是提出了WoW-Bench,这是一个新颖的基准,专门用于评估大型音频语言模型(LALMs)的细粒度听觉感知和认知能力。该基准创新性地利用了海洋哺乳动物的发声数据,这些数据对于模型而言通常是新颖且分布外的,从而能够有效测试模型在处理不熟悉声音时的推理能力。
- 双重评估体系: WoW-Bench包含两个主要组成部分,提供全面的评估:
- 感知基准(Perception benchmark): 旨在评估模型对新颖声音进行分类的能力,考察其对基本声学特征的识别和区分。
- 认知基准(Cognition benchmark): 受布鲁姆分类法(Bloom’s taxonomy)启发,用于评估模型记忆、理解、应用和分析声音事件的更高层次认知能力。这有助于深入了解LALMs在处理复杂听觉信息时的推理和学习能力。
[Encoding Tactile Stimuli for Organoid Intelligence in Braille Recognition]
📅 发布日期: 2025-08-28
- 👥 作者: Tianyi Liu, Hemma Philamore, Benjamin Ward-Cherrier
- 🎯 研究目的: 本研究旨在探索神经类器官在人工触觉感知领域的应用潜力,特别是如何使其能够识别复杂的模式,如盲文。核心目标是提出一种通用的编码策略,将触觉传感器数据有效地转换为电刺激模式,从而使培养在微电极阵列上的人类前脑类器官能够执行开环式人工触觉盲文分类任务。这为类器官智能在生物计算、神经假肢或新型人机接口等领域的应用奠定基础。
- ⭐ 主要发现:
- 通用编码策略: 论文提出了一种新颖且通用的编码策略,能够将来自触觉传感器(如Evetac传感器)的事件驱动型触觉输入数据,映射并转化为神经类器官可理解的电刺激模式。
- 刺激与响应表征: 研究系统地刺激了培养在低密度微电极阵列(MEA)上的人类前脑类器官,并成功表征了电刺激参数(包括脉冲数量、相位幅度、相位持续时间及触发延迟)与类器官反应(通过尖峰活动和活动中心的空间位移测量)之间的关系。
- 盲文识别能力: 将所提出的编码系统应用于实际的盲文触觉输入,结果显示单个类器官在盲文信件分类任务中实现了平均61%的准确率。
- 准确率显著提升: 进一步的优化或多类器官协同作用(摘要中未完全展开,但暗示了显著提升)使分类准确率显著提高至83%。
- 潜在影响: 这些发现首次证明了神经类器官能够处理和分类复杂的外部触觉刺激,为开发基于类器官的生物计算系统、智能假肢或探索类器官智能在感知和认知任务中的应用开辟了新的途径。
[GDLLM: A Global Distance-aware Modeling Approach Based on Large Language Models for Event Temporal Relation Extraction]
📅 发布日期: 2025-08-28
- 👥 作者: Jie Zhao, Wanting Ning, Yuxiao Fei, Yubo Feng, Lishuang Li
- 🎯 研究目的: 自然语言处理(NLP)中的事件时间关系抽取(ETRE)旨在识别两个事件之间的时间关系,而语言模型在此任务中发挥着重要作用。然而,现有方法存在局限:小型语言模型(SLMs)由于预训练知识的限制,难以有效处理不平衡分类数据集中少数类关系;大型语言模型(LLMs)虽然强大,但研究人员常采用手动设计的提示或指令,这可能引入额外噪声,干扰模型对事件间长距离依赖的判断。为解决这些问题,本研究提出了一种基于大型语言模型(LLMs)的全局距离感知建模方法——GDLLM。
- ⭐ 主要发现: 本文的核心贡献是提出了GDLLM,一种基于大型语言模型(LLMs)的全局距离感知建模方法,旨在解决现有方法在处理不平衡数据集中的少数类关系以及LLMs长距离依赖判断受干扰的问题。GDLLM的创新之处在于,它首先引入了一种利用图注意力网络(GAT)构建的距离感知图结构,以辅助LLMs更好地理解和抽取事件之间的时间关系。通过这种全局距离感知建模,GDLLM有望提升ETRE任务的性能,尤其是在处理复杂和长距离事件依赖方面。
[超越表象:视频理解中抽象概念识别的综述]
📅 发布日期: 2025-08-28
- 👥 作者: Gowreesh Mago, Pascal Mettes, Stevan Rudinac
- 🎯 研究目的: 当前,视频内容的自动理解正迅速发展,深度神经网络和大型数据集的赋能使得机器在理解视频帧中具体的实体(如物体、动作、事件或场景)方面能力日益增强。然而,人类拥有一种独特的能力,能够超越具体的实体,识别诸如正义、自由和团结等抽象概念。抽象概念识别是视频理解领域一个关键的开放性挑战,其中基于上下文信息进行多语义层面的推理至关重要。本文旨在探讨如何解决这一挑战,并提出基础模型(Foundation Models)的最新进展为解决视频中的抽象概念理解提供了理想的设置,以期推动机器在视频理解方面达到更接近人类的认知水平。
- ⭐ 主要发现: 作为一篇综述论文,本文的核心贡献在于系统性地审视了视频理解领域中抽象概念识别的现状与挑战。作者们提出,随着基础模型(如大型语言模型和多模态模型)的快速发展,它们为机器超越表面信息、进行深层次抽象推理提供了前所未有的机遇。论文详细论证了如何利用基础模型的强大表征能力和推理机制来捕捉视频中蕴含的复杂上下文信息,从而实现对高层抽象概念的自动化理解。这一观点为视频理解领域开辟了新的研究方向,预示着未来机器将能够更接近人类的认知水平,从视频内容中提取出更深层次的语义和文化内涵,对人工智能在理解复杂人类社会互动和文化现象方面产生深远影响。
[Disruptive Attacks on Face Swapping via Low-Frequency Perceptual Perturbations]
📅 发布日期: 2025-08-28
- 👥 作者: Mengxiao Huang, Minglei Shu, Shuwang Zhou, Zhaoyang Liu
- 🎯 研究目的: 深度伪造技术(Deepfake)在生成对抗网络(GANs)的推动下,对隐私和社会安全构成了严重威胁。现有检测方法多为被动式,侧重于事后分析而非预防攻击。为解决这一问题,本研究旨在提出一种基于低频感知扰动的主动防御方法,以干扰换脸(face swapping)操作,从而降低生成内容的性能和真实感。
- ⭐ 主要发现: 本文提出了一种创新的主动防御策略,通过引入低频感知扰动来直接破坏换脸操作,而非仅仅影响其分类检测。与以往利用低频扰动影响分类准确性的方法不同,本方法直接针对深度伪造技术的生成过程进行干预。为增强防御效果,研究结合了频率域和空间域特征。通过在保留高频细节的同时引入低频扰动产生的伪影,本方法旨在有效降低深度伪造内容的性能和自然度。
[UTA-Sign: 基于事件辅助交通标志素描的无监督热成像视频增强]
📅 发布日期: 2025-08-28
- 👥 作者: Yuqi Han, Songqian Zhang, Weijian Su, Ke Li, Jiayu Yang, Jinli Suo, Qiang Zhang
-
🎯 研究目的: 热成像相机在低光照条件下感知外部环境表现出色,使其成为夜间自动驾驶和无人导航等应用的理想选择。然而,热成像相机在捕捉由相似材料制成的物体(如交通标志)时面临挑战,这可能对自动驾驶系统准确理解语义构成安全风险。与此形成对比的是,神经形态视觉相机(即事件相机)能够异步检测光强度变化,并已证明在高速、低光照交通环境中表现有效。 鉴于这两种模态(热成像和事件相机)的互补特性,本研究旨在提出一种创新的解决方案。本文提出了UTA-Sign,一种针对低光照环境下交通标志的无监督热-事件视频增强方法,旨在解决热成像在识别交通标志时的固有局限性,从而提升自动驾驶系统在复杂光照条件下对交通标志的感知能力和安全性。
- ⭐ 主要发现: 本研究的核心贡献是提出了UTA-Sign,一个新颖的无监督热-事件视频增强框架,专门用于提升低光照环境下交通标志的识别效果。UTA-Sign巧妙地利用了热成像相机和事件相机在感知交通标志时的互补优势:热成像擅长在黑暗中提供场景结构,而事件相机则能精确捕捉光强度变化引起的边缘信息。通过将事件相机检测到的动态变化信息转化为“素描式”的辅助信号,UTA-Sign能够对热成像视频中的交通标志进行增强,有效克服了热成像在区分由相似材料制成的标志时的难题。这种无监督的增强方法避免了对大量标注数据的依赖,降低了实际应用的成本和复杂性。该研究的成果有望显著提高自动驾驶系统在夜间或恶劣光照条件下对交通标志的识别精度和语义理解能力,为提升自动驾驶的安全性和可靠性提供了新的解决方案和理论基础。
[Machine-learning based particle-flow algorithm in CMS]
📅 发布日期: 2025-08-28
- 👥 作者: Farouk Mokhtar
- 🎯 研究目的: 粒子流(PF)算法在CMS实验中是事件重建的核心,通过重建末态粒子提供全局事件描述。为了直接优化物理量并充分利用异构计算架构,端到端机器学习(ML)方法被提出。其中,机器学习粒子流(MLPF)利用Transformer模型从径迹和簇中一步直接推断粒子。本文旨在介绍CMS在MLPF方面的最新发展,包括其训练数据集、模型架构、重建指标以及与离线重建软件的集成。
- ⭐ 主要发现: 本文详细阐述了CMS实验在机器学习粒子流(MLPF)算法方面的最新进展。核心贡献在于:
- MLPF方法的核心: 采用基于Transformer模型的端到端机器学习方法,能够从探测器径迹和簇中一步直接推断出末态粒子,从而实现全局事件描述。
- 关键开发内容: 论文详细介绍了MLPF的训练数据集构建、所采用的模型架构设计、用于评估其性能的重建指标,以及如何将其有效地集成到CMS的离线重建软件中。
- 潜在影响: 这种基于ML的粒子流方法有望为CMS的事件重建带来新的效率和精度提升,通过直接优化物理量并充分利用异构计算架构,为高能物理实验的数据处理提供创新解决方案。
[BridgeShield: Enhancing Security for Cross-chain Bridge Applications via Heterogeneous Graph Mining]
📅 发布日期: 2025-08-28
- 👥 作者: Dan Lin, Shunfeng Lu, Ziyan Liu, Jiajing Wu, Junyuan Fang, Kaixin Lin, Bowen Song, Zibin Zheng
- 🎯 研究目的: 跨链桥在实现区块链互操作性方面发挥着关键作用,但由于其固有的设计缺陷和承载的巨大价值,它们已成为黑客攻击的主要目标。现有检测方法虽然有所进展,但主要关注单链行为,未能有效捕捉跨链语义,因此存在局限性。本研究旨在弥补这一空白,利用异构图注意力网络来建模多类型实体和关系,从而捕获复杂的跨链行为执行语义,以提升跨链桥应用的安全性。
- ⭐ 主要发现: 论文提出了BridgeShield,一个创新的检测框架,它在一个统一的异构图表示中共同建模源链、链下协调和目标链。BridgeShield利用异构图注意力网络,能够有效捕捉跨链行为的复杂执行语义。通过整合元路径内的注意力机制,该框架有望显著提升对跨链桥攻击的检测能力,为区块链互操作性提供更强大的安全保障,从而有效应对因设计缺陷和高价值目标而引发的黑客攻击风险。
[Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding]
📅 发布日期: 2025-08-28
- 👥 作者: Yuan Xie, Tianshui Chen, Zheng Ge, Lionel Ni
- 🎯 研究目的: 长视频理解面临着长距离时间依赖和多事件的挑战。现有方法通常依赖静态推理或外部视觉语言模型(VLMs),但这些方法存在复杂性高、性能次优等问题,主要原因在于缺乏端到端训练。本研究旨在解决这些问题,提出一种强化的多轮推理框架,以实现对长视频内容的更深层次理解。
- ⭐ 主要发现: 论文提出了Video-MTR框架,该框架旨在实现迭代式的关键视频片段选择和问题理解。与传统单轮预测的视频推理流程不同,Video-MTR通过多轮推理,根据对先前处理片段和当前问题的不断演进的理解,逐步选择视频片段。这种迭代过程允许更精细的推理,显著提升了长视频理解任务的性能,尤其是在处理复杂的时间依赖和多事件场景时。
[QTMRL: An Agent for Quantitative Trading Decision-Making Based on Multi-Indicator Guided Reinforcement Learning]
📅 发布日期: 2025-08-28
- 👥 作者: Xiangdong Liu, Jiahao Chen
- 🎯 研究目的: 在高度波动和不确定的全球金融市场中,依赖统计建模或经验规则的传统量化交易模型,因其僵化的假设和有限的泛化能力,往往难以适应动态市场变化和黑天鹅事件。本研究旨在解决这些问题,开发一个能够进行自适应和稳定投资组合管理的智能交易代理。
- ⭐ 主要发现: 论文提出了QTMRL(Quantitative Trading Multi-Indicator Reinforcement Learning)智能交易代理,它将多维度技术指标与强化学习(RL)相结合。研究首先利用23年(2000-2022)标普500指数16支代表性股票的日OHLCV数据构建了一个全面的多指标数据集,通过趋势、波动性和动量指标丰富了原始数据,以全面捕捉市场信息。QTMRL通过强化学习范式,能够根据这些多维度指标做出更灵活和稳健的交易决策,从而在复杂多变的市场环境中实现更优的投资组合管理和更高的收益。
[MedFoundationHub: A Lightweight and Secure Toolkit for Deploying Medical Vision Language Foundation Models]
📅 发布日期: 2025-08-28
- 👥 作者: Xiao Li, Yanfan Zhu, Ruining Deng, Wei-Qi Wei, Yu Wang, Shilin Zhao, Yaohong Wang, Haichun Yang, Yuankai Huo
- 🎯 研究目的: 医疗视觉语言模型(VLMs)的最新进展为临床应用(如自动化报告生成、医生助手和不确定性量化)带来了巨大机遇。然而,医疗VLMs也引入了严重的安全问题,特别是受保护健康信息(PHI)泄露、数据泄漏和网络威胁的风险,这在医院环境中尤为关键。即使用于研究或非临床目的,医疗机构也必须谨慎并实施安全措施。本研究旨在解决这些挑战,提供一个轻量级且安全的工具包,以促进医疗VLMs的部署和应用。
- ⭐ 主要发现: 论文提出了MedFoundationHub,一个图形用户界面(GUI)工具包,旨在解决医疗VLMs部署中的安全和可用性挑战。该工具包具有以下特点:(1) 使医生无需编程专业知识即可手动选择和使用不同的模型;(2) 专注于数据安全和隐私保护,通过设计确保PHI不会被泄露或滥用;(3) 提供轻量级的部署方案,降低了医疗机构采用先进VLMs的门槛。MedFoundationHub通过这些创新,为医疗领域安全、高效地利用视觉语言基础模型提供了实用且可靠的解决方案。
[AudioStory: Generating Long-Form Narrative Audio with Large Language Models]
📅 发布日期: 2025-08-27
- 👥 作者: Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan
- 🎯 研究目的: 近年来文本到音频(TTA)生成技术在合成短音频片段方面取得了显著进展,但在生成长篇叙事音频方面仍面临挑战,这需要时间连贯性和组合推理能力。本研究旨在弥补这一空白,提出一个统一的框架,以生成结构化、长篇的叙事音频。
- ⭐ 主要发现: 论文提出了AudioStory,一个将大型语言模型(LLMs)与TTA系统相结合的统一框架,用于生成结构化、长篇叙事音频。AudioStory具有强大的指令遵循推理生成能力,它利用LLMs将复杂的叙事查询分解为带有上下文线索的时间有序子任务,从而实现连贯的场景过渡和情感语调一致性。AudioStory拥有两个吸引人的特点:(1) 解耦的桥接机制,将LLM-扩散器协作分解为两个专门组件;(2) 能够处理长篇叙事,保持整体连贯性。这些创新使得AudioStory能够生成高质量、富有表现力的长篇叙事音频,显著推动了文本到音频生成领域的发展。
[PAUL: Uncertainty-Guided Partition and Augmentation for Robust Cross-View Geo-Localization under Noisy Correspondence]
📅 发布日期: 2025-08-27
- 👥 作者: Zheng Li, Yanming Guo, WenZhe Liu, Xueyi Zhang, Zhaoyun Ding, Long Xu, Mingrui Lao
- 🎯 研究目的: 跨视角地理定位是无人机导航、事件检测和航空测量等领域的关键任务,它涉及无人机捕获图像与卫星图像之间的匹配。大多数现有方法将多模态数据嵌入到联合特征空间中以最大化配对图像的相似性。然而,这些方法通常假设训练期间图像对完美对齐,这在现实世界场景中很少成立。在实践中,城市峡谷效应、电磁干扰和恶劣天气等因素经常导致GPS漂移,造成系统性的对齐偏移,使得图像对之间仅存在部分对应关系。尽管这种噪声对应关系普遍存在,但当前研究对其关注有限。本研究旨在解决这一问题,提升在噪声对应关系下跨视角地理定位的鲁棒性。
- ⭐ 主要发现: 论文正式提出了在噪声对应关系下进行跨视角地理定位的挑战,并提出了PAUL(Uncertainty-Guided Partition and Augmentation for Robust Cross-View Geo-Localization)框架。PAUL通过不确定性引导的划分和增强策略,有效处理训练数据中普遍存在的GPS漂移导致的图像对部分对应问题。该框架能够识别并减轻噪声对应对模型训练的影响,从而显著提升在真实世界复杂场景下跨视角地理定位的准确性和鲁棒性。
[Context-aware Sparse Spatiotemporal Learning for Event-based Vision]
📅 发布日期: 2025-08-27
- 👥 作者: Shenqi Wang, Guangzhi Tang
- 🎯 研究目的: 基于事件的相机作为一种新兴的机器人感知范式,具有高时间分辨率、高动态范围和对运动模糊的鲁棒性等优点。然而,现有的基于深度学习的事件处理方法往往未能充分利用事件数据的稀疏性,这使得它们难以集成到资源受限的边缘应用中。虽然神经形态计算提供了一种节能替代方案,但尖峰神经网络在复杂事件视觉任务(如目标检测和光流)中难以与最先进模型匹敌。此外,在神经网络中实现高激活稀疏性仍然很困难,并且通常需要仔细手动调整稀疏性诱导损失项。本研究旨在解决这些问题,提出一种上下文感知的稀疏时空学习方法,以更有效地利用事件数据。
- ⭐ 主要发现: 论文提出了上下文感知稀疏时空学习(Context-aware Sparse Spatiotemporal Learning)方法,旨在充分利用事件数据的稀疏特性。该方法通过引入上下文感知机制,能够更智能地处理事件流,并在保持高性能的同时实现高激活稀疏性。这不仅有助于将事件处理方法集成到资源受限的边缘应用中,而且有望缩小尖峰神经网络与最先进模型在复杂事件视觉任务上的性能差距。该研究为事件相机数据的有效处理和应用提供了新的思路和技术支持。
[Uncovering the Bigger Picture: Comprehensive Event Understanding Via Diverse News Retrieval]
📅 发布日期: 2025-08-27
- 👥 作者: Yixuan Tang, Yuanyuan Shi, Yiqun Sun, Anthony Kum Hoe Tung
- 🎯 研究目的: 获取多样化的视角对于理解真实世界事件至关重要,然而大多数新闻检索系统优先考虑文本相关性,这导致结果冗余和观点暴露有限。本研究旨在解决这一问题,通过显式建模句子层面的语义变异来增强事件覆盖范围,从而实现更全面的事件理解。
- ⭐ 主要发现: 论文提出了NEWSCOPE,一个用于多样化新闻检索的两阶段框架。第一阶段使用密集检索来获取主题相关内容,而第二阶段则应用句子级聚类和多样性感知重排序来呈现补充信息。为了评估检索多样性,研究引入了三个可解释的指标:平均成对距离(Average Pairwise Distance)、正向聚类覆盖率(Positive Cluster Coverage)和信息密度比(Information Density Ratio),并构建了两个段落级基准数据集:LocalNews和DSG。实验结果表明,NEWSCOPE能够有效提升新闻检索的多样性和事件覆盖的全面性,为用户提供更丰富、多维度的事件视角。
[Data Cartography for Detecting Memorization Hotspots and Guiding Data Interventions in Generative Models]
📅 发布日期: 2025-08-27
- 👥 作者: Laksh Patel, Neel Shanbhag
- 🎯 研究目的: 现代生成模型存在过拟合和无意中记忆稀有训练样本的风险,这些样本可能被攻击者提取或夸大基准性能。本研究旨在解决这一问题,提出一个数据中心框架,以检测生成模型中的记忆热点,并指导有针对性的数据干预,从而提高模型的泛化能力和安全性。
- ⭐ 主要发现: 论文提出了Generative Data Cartography (GenDataCarto),一个数据中心框架,它为每个预训练样本分配一个难度分数(早期epoch损失)和一个记忆分数(“遗忘事件”的频率),然后将样本划分为四个象限,以指导有针对性的剪枝和上/下权重调整。研究证明,在平滑假设下,所提出的记忆分数是经典影响的下界,并且通过均匀稳定性界限,降低高记忆热点的权重可以显著减少泛化差距。在经验上,GenDataCarto在仅使用10%数据的情况下,将合成金丝雀提取成功率降低了40%以上,这表明它能有效减少模型记忆,提升泛化性能和鲁棒性。
[Energy-Efficient Learning-Based Beamforming for ISAC-Enabled V2X Networks]
📅 发布日期: 2025-08-27
- 👥 作者: Chen Shang, Jiadong Yu, Dinh Thai Hoang
- 🎯 研究目的: 本研究旨在为集成传感与通信(ISAC)功能的V2X网络提出一种节能、基于学习的波束赋形方案。V2X环境的动态性和不确定性使得传统的波束赋形方法难以适应,同时,现有基于学习的方案往往能耗较高。研究目标是开发一种能够联合优化波束赋形和功率分配,同时确保通信吞吐量和传感精度,并显著降低能耗的智能决策机制。
- ⭐ 主要发现: 论文首先将V2X环境的动态和不确定性建模为马尔可夫决策过程,这使得路边单元能够仅基于当前传感信息生成波束赋形决策,从而消除了频繁的导频传输和广泛的信道状态信息获取需求。随后,研究开发了一种深度强化学习(DRL)算法来联合优化波束赋形和功率分配,以确保在高度动态场景下的通信吞吐量和传感精度。为了解决传统基于学习方案的高能耗问题,研究将尖峰神经网络(SNN)嵌入到DRL算法中。实验结果表明,该方案在实现高性能的同时,显著降低了能耗,为ISAC-Enabled V2X网络提供了高效且可持续的解决方案。
[CVBench: Evaluating Cross-Video Synergies for Complex Multimodal Understanding and Reasoning]
📅 发布日期: 2025-08-27
- 👥 作者: Nannan Zhu, Yonghao Dong, Teng Wang, Xueqian Li, Shengjun Deng, Yijia Wang, Zheng Hong, Tiantian Geng, Guo Niu, Hanyan Huang, Xiongfei Yao, Shuaiwei Jiao
- 🎯 研究目的: 尽管多模态大型语言模型(MLLMs)在单视频任务(如视频问答)上表现出色,但它们在处理多个视频时的能力仍未得到充分探索。然而,这种能力对于多摄像头监控和跨视频程序学习等现实世界应用至关重要。本研究旨在弥补这一空白,提出一个全面的基准,以严格评估跨视频关系推理能力。
- ⭐ 主要发现: 论文提出了CVBench,这是第一个旨在严格评估跨视频关系推理的综合基准。CVBench包含1,000个问答对,涵盖三个层次:跨视频对象关联(识别共享实体)、跨视频事件关联(链接时间或因果事件链)和跨视频复杂推理(整合常识和领域知识)。该基准基于五个领域构建,为评估MLLMs在复杂多模态理解和推理方面的跨视频协同能力提供了标准化的工具。CVBench的引入将推动多模态AI在处理复杂、多源视频信息方面的研究和发展。
[Enabling Transparent Cyber Threat Intelligence Combining Large Language Models and Domain Ontologies]
📅 发布日期: 2025-08-26
- 👥 作者: Luca Cotti, Anisa Rula, Devis Bianchini, Federico Cerutti
- 🎯 研究目的: 有效的网络威胁情报(CTI)依赖于从网络安全系统日志中提取的准确结构化和语义丰富的信息。然而,现有方法在可靠和透明地识别和解释恶意事件方面常常遇到困难,尤其是在涉及非结构化或模糊日志条目的情况下。本研究旨在解决这些挑战,提出一种结合本体驱动结构化输出和大型语言模型(LLMs)的新方法,以提高从网络安全日志中信息提取的准确性和可解释性。
- ⭐ 主要发现: 论文提出了一种新颖的方法,通过将领域本体和基于SHACL的约束与大型语言模型(LLMs)相结合,构建了一个人工智能代理。该方法的核心在于引导语言模型的输出结构,并强制执行结果的语义有效性,从而显著提高了从网络安全日志中信息提取的准确性和可解释性。通过这种集成,该代理能够更可靠、更透明地识别和解释恶意事件,即使在处理非结构化或模糊的日志条目时也能保持高性能,为网络威胁情报提供了更强大的支持。
[Fine-Tuning Vision-Language Models for Neutrino Event Analysis in High-Energy Physics Experiments]
📅 发布日期: 2025-08-26
- 👥 作者: Dikshant Sagar, Kaiwen Yu, Alejandro Yankelevich, Jianming Bian, Pierre Baldi
- 🎯 研究目的: 大型语言模型(LLMs)在自然语言之外的多模态推理方面展现出巨大潜力。本研究旨在探索微调后的视觉语言模型(VLM)在分析高能物理(HEP)实验中中微子事件方面的应用,特别是从像素化探测器图像中分类中微子相互作用。研究目标是评估VLM在此任务上的性能,并与现有基线方法进行比较。
- ⭐ 主要发现: 论文探索了基于LLaMA 3.2微调的VLM,用于高能物理实验中中微子事件的分类。研究将VLM的性能与NOvA和DUNE等实验中使用的成熟CNN基线进行了基准测试,评估了分类准确率、精确率、召回率和AUC-ROC等指标。结果表明,VLM不仅能达到或超越CNN的性能,而且还能够实现更丰富的推理和更好地整合辅助文本或语义上下文。这些发现表明,VLM为高能物理事件分类提供了一个有前景的通用骨干网络,有望在未来实验中发挥重要作用。
[Reflective Agreement: Combining Self-Mixture of Agents with a Sequence Tagger for Robust Event Extraction]
📅 发布日期: 2025-08-26
- 👥 作者: Fatemeh Haji, Mazal Bethany, Cho-Yu Jason Chiang, Anthony Rios, Peyman Najafirad
- 🎯 研究目的: 事件抽取(EE)涉及从非结构化文本中自动识别和提取关于事件的结构化信息,包括触发词、事件类型和论元。传统的判别模型表现出高精度但召回率有限,尤其对于细微或不常见的事件。相反,利用大型语言模型(LLMs)的生成方法提供了更高的语义灵活性和召回率,但却受到幻觉和预测不一致的困扰。本研究旨在解决这些挑战,提出一种混合方法,以实现更鲁棒的事件抽取。
- ⭐ 主要发现: 论文提出了Agreement-based Reflective Inference System (ARIS),一种混合方法,它结合了自代理混合(Self Mixture of Agents)和判别式序列标注器,以解决事件抽取中的精度和召回率权衡问题。ARIS明确利用结构化模型共识、基于置信度的过滤以及LLM的反射推理能力。通过这种设计,ARIS能够有效缓解生成式LLMs的幻觉问题,同时提升对细微和不常见事件的召回率,从而实现更准确、更一致的事件抽取,为信息提取领域带来了显著的性能提升和鲁棒性。
[Experimental Assessment of a Multi-Class AI/ML Architecture for Real-Time Characterization of Cyber Events in a Live Research Reactor]
📅 发布日期: 2025-08-26
- 👥 作者: Zachery Dahm, Konstantinos Vasili, Vasileios Theos, Konstantinos Gkouliaras, William Richards, True Miller, Brian Jowers, Stylianos Chatzidakis
- 🎯 研究目的: 人工智能和机器学习(AI/ML)在核工业和核工程社区的应用日益受到关注。AI/ML的有效实施有望为核领域带来益处,包括增强异常识别、预测系统故障和优化运行计划。然而,在运行中的核反应堆中研究AI/ML工具的可行性和适用性的工作有限。本研究旨在超越单一模型的开发,引入一个多层AI/ML架构,以实时识别、表征和区分核反应堆中的网络事件与其他操作事件。
- ⭐ 主要发现: 论文提出了一个多层AI/ML架构,该架构集成了信息技术(IT)和操作技术(OT)数据流,用于在实时研究反应堆中识别、表征和区分多类网络安全事件以及网络事件与其他操作事件。该架构通过在真实运行的核反应堆中进行实验评估,验证了其在复杂、高风险环境中实时检测和分类不同类型事件的能力。这项工作不仅证明了AI/ML在核安全领域的巨大潜力,也为核工业中AI/ML工具的实际部署提供了重要的经验和技术基础,有助于增强核设施的安全性、可靠性和运行效率。
[PRISM: A Framework Harnessing Unsupervised Visual Representations and Textual Prompts for Explainable MACE Survival Prediction from Cardiac Cine MRI]
📅 发布日期: 2025-08-26
- 👥 作者: Haoyang Su, Jin-Yi Xiang, Shaohao Rui, Yifan Gao, Xingyu Chen, Tingxuan Yin, Xiaosong Wang, Lian-Ming Wu
- 🎯 研究目的: 准确预测主要不良心血管事件(MACE)仍然是心血管预后中的一个核心挑战。本研究旨在提出一个自监督框架,该框架能够整合非对比心脏电影磁共振成像(cardiac cine MRI)的视觉表示与结构化电子健康记录(EHRs),以进行生存分析,并提供可解释的MACE生存预测。
- ⭐ 主要发现: 论文提出了PRISM(Prompt-guided Representation Integration for Survival Modeling),一个自监督框架,它整合了非对比心脏电影MRI的视觉表示和结构化EHRs,用于生存分析。PRISM通过运动感知多视图蒸馏提取时间同步的影像特征,并利用医学知情的文本提示对其进行调制,从而实现精细的风险预测。在四个独立的临床队列中,PRISM在内部和外部验证中始终超越了经典的生存预测模型和最先进(SOTA)的深度学习基线。此外,PRISM还提供了可解释性,有助于临床医生理解预测结果,为心血管疾病的精准预后和治疗决策提供了新的工具和见解。
[VibES: Induced Vibration for Persistent Event-Based Sensing]
📅 发布日期: 2025-08-26
- 👥 作者: Vincenzo Polizzi, Stephen Yang, Quentin Clark, Jonathan Kelly, Igor Gilitschenski, David B. Lindell
- 🎯 研究目的: 事件相机是一种仿生传感器,能够异步测量像素级的强度变化。在静态或低运动场景中,固定照明条件下刚性安装的事件相机无法生成任何事件,从而不适用于大多数计算机视觉任务。为了解决这一限制,现有研究探索了运动诱导事件刺激,但这通常需要复杂的硬件或额外的光学组件。本研究旨在提出一种轻量级方法,通过诱导振动来维持持续的事件生成,从而克服事件相机在静止场景下的局限性。
- ⭐ 主要发现: 论文引入了一种轻量级方法VibES,通过使用一个简单的旋转不平衡质量块来诱导周期性振动运动,从而维持持续的事件生成。该方法与运动补偿管道相结合,可以去除注入的运动,并为下游感知任务提供干净、运动校正后的事件。研究通过实验证明了VibES在各种场景下的有效性,包括在静止环境中实现持续的事件流,并显著提升了事件相机在缺乏自然运动时的可用性。这一创新为事件相机在更广泛的应用场景中提供了实用且高效的解决方案。
[Time Series Analysis of Spiking Neural Systems via Transfer Entropy and Directed Persistent Homology]
📅 发布日期: 2025-08-26
- 👥 作者: Dylan Peek, Siddharth Pritam, Matthew P. Skerritt, Stephan Chalup
- 🎯 研究目的: 本研究旨在提出一个拓扑框架,用于分析神经时间序列,该框架整合了转移熵(Transfer Entropy, TE)和有向持久同调(directed Persistent Homology, PH),以表征尖峰神经网络系统中的信息流。现有方法在捕捉神经元之间动态、方向性信息交互及其多尺度拓扑复杂性方面存在局限。
- ⭐ 主要发现: 论文提出了TE+PH管道,TE量化神经元之间的方向性影响,生成反映动态交互的加权有向图。然后,使用PH分析这些图,从而评估跨多个结构尺度和维度的拓扑复杂性。研究将此TE+PH管道应用于训练用于逻辑门任务的合成尖峰网络、暴露于结构化和扰动输入的图像分类网络,以及带有行为事件注释的小鼠皮层记录。在所有设置中,由此产生的拓扑特征揭示了任务复杂性、刺激类型和行为状态之间的显著区别,表明该框架能够有效揭示尖峰神经网络系统中的深层信息流和拓扑结构。
[ProPy: Building Interactive Prompt Pyramids upon CLIP for Partially Relevant Video Retrieval]
📅 发布日期: 2025-08-26
- 👥 作者: Yi Pan, Yujia Zhang, Michael Kampffmeyer, Xiaoguang Zhao
- 🎯 研究目的: 部分相关视频检索(PRVR)是一个实用但具有挑战性的任务,它涉及根据仅与特定视频片段相关的查询来检索视频。虽然现有工作遵循开发模型处理单模态特征的范式,但像CLIP这样强大的预训练视觉语言模型在该领域仍未得到充分探索。本研究旨在弥补这一空白,提出一个系统性地适应CLIP架构的模型,专门用于PRVR任务。
- ⭐ 主要发现: 论文提出了ProPy模型,该模型系统性地适应了CLIP架构,专门为部分相关视频检索(PRVR)设计。ProPy借鉴了多粒度事件的语义相关性,引入了两项关键创新:(1) 一个提示金字塔(Prompt Pyramid)结构,它组织事件提示以捕获多粒度级别的语义;(2) 一个建立在金字塔之上的祖先-后代交互机制(Ancestor-Descendant Interaction Mechanism),能够实现动态语义交互。这些创新使得ProPy能够更有效地理解查询与视频片段之间的部分相关性,显著提升了PRVR任务的性能,为利用预训练视觉语言模型解决复杂视频检索问题提供了新的范式。
[Working My Way Back to You: Resource-Centric Next-Activity Prediction]
📅 发布日期: 2025-08-26
- 👥 作者: Kelly Kurowski, Xixi Lu, Hajo A Reijers
- 🎯 研究目的: 预测性过程监控(PPM)旨在训练模型预测过程执行中即将发生的事件。这些预测支持早期瓶颈检测、改进调度、主动干预和与利益相关者的及时沟通。虽然现有研究主要采用控制流视角,但本研究从以资源为中心的角度探讨下一活动预测,这提供了额外的优势,例如改进工作组织、工作量平衡和能力预测。尽管资源信息已被证明可以增强过程性能分析等任务,但其在下一活动预测中的作用仍未被探索。
- ⭐ 主要发现: 本研究从以资源为中心的角度对下一活动预测进行了深入探讨。论文评估了四种预测模型和三种编码策略在四个真实数据集上的表现。与基线相比,研究发现整合资源信息能够显著提升下一活动预测的准确性。以资源为中心的视角不仅能够改进工作组织和工作量平衡,还能提供更精确的能力预测。这项研究填补了资源信息在下一活动预测中作用的空白,为预测性过程监控提供了新的、更全面的方法,有助于企业更有效地管理和优化其业务流程。
生成说明
- 本报告由AI模型自动生成,摘要内容仅供参考。
- 如有错误或遗漏,请以原始论文为准。