📄 Hugging Face 今日论文精选（2026-06-12）

lalala · 2026 年6 月 12 日 10:00

Hugging Face 今日论文精选（2024-11-14）

核心主线：聚焦于大模型深度推理、原生多模态统一架构、高效推理加速与稀疏注意力机制的前沿突破。

TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search 5
- 链接：[2606.11662] TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search
- 为什么值得看：针对大语言模型在复杂推理任务中的局限性，本文提出了一种树状结构的“试错与回溯”深度搜索框架，显著提升了模型在多步推理和自我纠错上的表现，是探索类似 OpenAI o1 级推理能力的重要一步。
HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers 4.5
- 链接：[2606.13289] HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers
- 为什么值得看：提出了一种采用整体视觉分词器（Holistic Visual Tokenizer）的原生统一多模态模型架构，有效解决了传统多模态模型中视觉与文本表征不对齐的问题，为真正的“Any-to-Any”多模态理解与生成奠定了基础。
VIA-SD: Verification via Intra-Model Routing for Speculative Decoding 4.5
- 链接：[2606.12243] VIA-SD: Verification via Intra-Model Routing for Speculative Decoding
- 为什么值得看：针对大模型推理加速，该论文提出了一种基于模型内部路由验证的投机解码方法，无需额外的草稿模型（Draft Model），在保证生成质量的同时大幅降低了推理延迟和显存开销。
MiniMax Sparse Attention 4
- 链接：[2606.13392] MiniMax Sparse Attention
- 为什么值得看：由 MiniMax 团队提出的一种新型稀疏注意力机制，旨在解决长文本处理中的计算瓶颈，在保持极高上下文检索和理解能力的同时，大幅降低了 Attention 算子的计算与显存复杂度。
High-Fidelity Two-Step Image Generation via Teacher-Aligned End-to-End Distillation 4
- 链接：[2606.12575] High-Fidelity Two-Step Image Generation via Teacher-Aligned End-to-End Distillation
- 为什么值得看：该研究通过教师对齐的端到端蒸馏技术，实现了仅需两步（2-step）即可生成高质量图像的扩散模型，极大地加速了图像生成推理过程，且几乎没有画质损失。