📄 Hugging Face 今日论文精选（2026-06-10）

lalala · 2026 年6 月 10 日 10:00

Hugging Face 今日论文精选（2025-06-26）

核心主线：模型可解释性、多模态理解、安全对齐、长视频推理与世界模型评估

Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders
- 链接：[2606.10029] Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders
- 为什么值得看：首次将稀疏自编码器（SAE）应用于TTS语言模型，实现语音合成过程的内部可解释性与可控引导，为语音生成模型的可信研究开辟新路径。
Kwai Keye-VL-2.0 Technical Report
- 链接：[2606.10651] Kwai Keye-VL-2.0 Technical Report
- 为什么值得看：快手多模态大模型的技术报告，代表工业级视觉-语言模型的系统设计与最新进展，对多模态社区有重要参考价值。
PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models
- 链接：[2606.09697] PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models
- 为什么值得看：将心理学理论引入LLM安全对齐，让模型生成更符合人类心理预期的拒绝回应，超越传统安全微调范式。
MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism
- 链接：[2606.07512] MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism
- 为什么值得看：通过分层图记忆与智能检索机制解耦视频感知与推理，解决长视频理解中的记忆瓶颈，是Agent与视频理解的交叉创新。
WorldOlympiad: Can Your World Model Survive a Triathlon?
- 链接：[2606.11129] WorldOlympiad: Can Your World Model Survive a Triathlon?
- 为什么值得看：提出三项全能世界模型评估基准，综合测试模型在多任务环境下的物理常识与决策鲁棒性，为世界模型领域提供关键评测工具。