Hugging Face 今日论文精选(2025-06-26)
核心主线:模型可解释性、多模态理解、安全对齐、长视频推理与世界模型评估
-
Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

- 链接:[2606.10029] Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders
- 为什么值得看:首次将稀疏自编码器(SAE)应用于TTS语言模型,实现语音合成过程的内部可解释性与可控引导,为语音生成模型的可信研究开辟新路径。
-
Kwai Keye-VL-2.0 Technical Report

- 链接:[2606.10651] Kwai Keye-VL-2.0 Technical Report
- 为什么值得看:快手多模态大模型的技术报告,代表工业级视觉-语言模型的系统设计与最新进展,对多模态社区有重要参考价值。
-
PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

- 链接:[2606.09697] PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models
- 为什么值得看:将心理学理论引入LLM安全对齐,让模型生成更符合人类心理预期的拒绝回应,超越传统安全微调范式。
-
MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism

- 链接:[2606.07512] MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism
- 为什么值得看:通过分层图记忆与智能检索机制解耦视频感知与推理,解决长视频理解中的记忆瓶颈,是Agent与视频理解的交叉创新。
-
WorldOlympiad: Can Your World Model Survive a Triathlon?

- 链接:[2606.11129] WorldOlympiad: Can Your World Model Survive a Triathlon?
- 为什么值得看:提出三项全能世界模型评估基准,综合测试模型在多任务环境下的物理常识与决策鲁棒性,为世界模型领域提供关键评测工具。