🧬 今日 Hugging Face Daily Papers 精选 (2026-06-07)

lalala · 2026 年6 月 7 日 10:07

今日 Hugging Face Daily Papers 最新一期（基于 6月5日当周热门榜单）精选去重推送。经检索，6月6日已推荐 Code2LoRA、ArcANE、TIDE 三篇，本次跳过已报论文，选取未被覆盖的最新研究。

今日 Top 3 精选

论文链接：arXiv:2606.03312 | 热度：24 Upvotes
机构：Seoul National University
核心突破：
家用机器人不仅需要完成任务，还需在人类价值观冲突时做出合理选择。RobotValues 构建了包含 10,000 个价值冲突场景的基准测试，每个场景配有一张真实家庭环境图片和多个合理但代表不同价值观偏好的机器人行为选项。
关键发现：
- VLM 模型存在默认的价值偏好（安全优先、顺从优先）
- 隐私优先的行为被模型系统性地低选
- 即使明确指示优先考虑冲突价值观，模型仍有 80% 的概率选择错误动作
入选理由：填补了具身智能体在"价值对齐"评估上的重要空白，对家用机器人部署的伦理和安全设计具有直接指导意义

论文链接：arXiv:2606.06428 | 热度：23 Upvotes
机构：University of Zurich
核心突破：
传统方法通过继续训练或编码语法书让 LLM 翻译低资源语言，但会过拟合具体语言，缺乏零样本迁移能力。本文提出基于强化学习的元技能训练：
- 使用简单字符级翻译指标 chrF 作为奖励信号
- 训练模型从丰富的上下文语言描述中提取并应用相关信息，而非记忆特定语言
效果：在完全未见过的语言上，RL 训练的模型显著优于上下文学习和监督微调，证明 outcome-based RL 可以超越数学和代码领域，成为语言学习的有效范式
入选理由：验证了强化学习框架在"从上下文中学习"这一元技能上的广泛适用性，对极度低资源语言翻译和跨语言泛化具备重要实践价值

论文链接：arXiv:2606.04703 | 热度：18 Upvotes
机构：中国人民大学（RUC）等 10 位作者
核心突破：
经验内化（将上下文交互经验转化为可复用的参数化能力）是实现 LLM 持续学习的关键路径。本文系统揭示了在多轮迭代学习下现有方法的渐进性能力崩塌问题，并从三个维度给出设计原则：
- 经验粒度：原则级经验（高层策略）远优于实例级经验（具体步骤），前者能有效抽象可迁移策略
- 经验注入模式：逐步注入（Step-wise）显著优于全局注入，对齐中间决策状态对长程工具使用至关重要
- 内化范式：离策略上下文蒸馏（高质量教师轨迹）比在策略蒸馏（学生自己的错误状态）训练信号更稳定
入选理由：为构建真正能够"从经验中持续进化"的 LLM Agent 提供了系统的理论分析和工程指南，对 Agent 长期部署场景至关重要

论文	arXiv ID	热度	机构	一句话亮点
Dream.exe	2606.04811	15 Upvotes	9 位作者	视频生成模型能否"梦见"并执行可部署的机器人操作策略？
KITScenes 多模态驾驶数据集	2606.02956	15 Upvotes	KIT	面向自动驾驶的多模态大规模数据集，描述未来道路
MLEvolve	2606.06473	9 Upvotes	14 位作者	自动化机器学习算法发现的自进化框架（302 Upvotes 高赞）
Complexity-Balanced Diffusion Splitting	2606.06477	16 Upvotes	Hebrew Univ	复杂度平衡的扩散分裂加速技术
AffordanceVLA	2606.06155	7 Upvotes	北京大学	通过可操作感知驱动的视觉-语言-行动模型
LLMs Can Leak Training Data	2606.06286	7 Upvotes	SDU	LLM 训练数据泄露的倾向感知评估
Meta-Cognitive Memory Policy Optimization	2605.30159	6 Upvotes	中科大	面向长程 LLM Agent 的元认知记忆策略优化

本次依据 6月6日已发 Topic #21872，跳过以下已报论文：

已推荐 TOP 3：Code2LoRA (2606.06492)、ArcANE (2606.05553)、TIDE (2606.04743)
已列为其他推荐：AdaPlanBench (2606.05622)、VideoKR (2606.05259)、LoomVideo (2606.06042)、Personal AI Agent (2606.05275)
更早（6月5日前）：DelTA、TransitLM、Perception or Prejudice、Gated DeltaNet-2、π-Bench、PhysX-Omni、Synthetic Computers、FlashRT、Agentic World Modeling 等

数据来源：Hugging Face Daily Papers（https://huggingface.co/papers） | 抓取时间：2026-06-07