News
普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建 ...
这次,Meta 还发布了三个新的基准测试,用于评估现有模型从视频中理解和推理物理世界的能力。尽管人类在这三个基准测试中的表现都非常出色(准确率在 85% 到 95% 之间),但包括 V-JEPA 2 ...
微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token前都能先“动脑推理”,并根据推理正确性获得奖励。
与第一代相比,V-JEPA 2使用了100万视频+100万图片超大规模训练数据集,可以让AI Agent像人类那样理解真实的物理世界,为智能体打造一个“超级大脑”自主学会观察、规划到执行全自动化能力。
RPA正加速走向一个十字路口,IT领导者和专家们对该技术的未来展开了越来越多的辩论。一些IT领导者认为,更强大、更自主的智能体最终将取代这项已有二十年历史的AI前体技术,而另一些人则预测,智能体和RPA将携手合作,实现更高水平的自动化。
安永会计师事务所合伙人兼美洲金融服务咨询业务AI负责人Mudit Gupta在小组讨论中表示,随着银行业将AI技术融入日常运营,且模型逐渐成熟,应用案例的构成正朝着具备客户交互功能的GenAI能力转变。
人类大脑在处理信息时,善于将纷繁复杂的感知和经验,压缩成简洁而有意义的“概念”。比如,“知更鸟”和“蓝松鸦”都被归为“鸟类”,而且我们还能分辨出“知更鸟”比“企鹅”更“像鸟”。这种能力让我们在面对海量信息时,既能高效归纳,又不失对细节和语境的敏感。
因此,我们将更新美国地区核心员工的办公地点政策: 要求所有「本地远程办公」的员工 ——也就是那些住在距离获批返岗办公点50英里以内 、但目前仍是远程办公的美国核心员工——按3/2的混合模式返回办公室办公。
根据 OpenAI 提供的数据,o3-pro 在人类测试者中的胜率为 64%,在 4 项稳定性测试中也略优于 o3。但正如 Sam Altman 所说,当你「以不同方式」使用它时,才能真正看到它的能力扩展。
同样具有挑战性的是竞争优先级的问题,文卡塔拉马尼说。“作为一家高增长、以客户为中心的公司,IT资源始终面临压力,”他说,“AI计划必须争夺预算、人才和高层管理人员的关注,这时对齐就变得至关重要。” ...
在官方展示的基准测试结果中,DeepSeek-R1的数据确实不是最新的(在AIME-25数学测试中,DeepSeek-R1-0528的准确率已经从旧版的70%提升至87.5%),并且比较行列里完全不见Qwen的身影。
在基准测试中,新模型取得了不错的成绩。这里主要是 Magistral 与其前身 Mistral-Medium 3 和 DeepSeek 系列的对比。Magistral Medium 在 AIME2024 上的得分为 73.6%,其中多数投票为 64% ...
Some results have been hidden because they may be inaccessible to you
Show inaccessible results