亚马逊最新研究论文曝光了大语言模型在多选题评测中存在的三种系统性偏差,挑战了当前主流的单选评估方法。该研究指出,模型可能通过模式匹配而非真正理解来“猜中”答案,导致评测结果虚高。这一发现对AI评估体系的科学性和可靠性提出了严峻质疑,呼吁行业重新审视评估标准。
Claude Code凭借5亿美元巨额融资成为AI工程领域新焦点,标志着从单纯模型能力向工程化落地的关键转折。这笔资金将加速AI工具与开发流程的深度融合,推动从代码生成到系统集成的全面革新,预示着一个更高效、更智能的软件开发时代即将到来。
NeurIPS 2025最佳论文揭示扩散模型训练中的惊人发现:模型先掌握原创能力,后习得模仿技巧。这一“时间差”现象挑战了AI学习路径的传统假设,为理解生成式AI的创造力本质提供了新视角,可能重塑模型训练策略和评估标准。