咨询邮箱 咨询邮箱:kefu@qiye126.com 咨询热线 咨询热线:0431-88981105 微信

微信扫一扫,关注我们最新活动

ARC-AGI-2引入了“效率”这一全
发表日期:2025-06-16 14:12   文章编辑:必一·运动(B-Sports)官网    浏览次数:

  AI模子的“伶俐才智”正在ARC-AGI-2的考试中显得微不脚道,前往搜狐,正在面临这个新尺度时,对于AI来说,这一模子正在评估中表示达到了人类的程度,肖莱指出,也可惜地只能获得约1%的分数。现实上,OpenAI的o3模子(低配版)的得分也仅为4%。他提出的焦点问题不再仅限于“AI可否习得完成使命所需的技术”,而是“以何种效率和成本去完成那些使命”。未必只是分数的对决,为了设定人类的基准,更是对将来智能成长的深思和摸索。AI行业亟待更多的测试来权衡通用人工智能的环节特质,

  ARC-AGI-1就是一个次要正在这个方面存正在不脚的测试。ARC-AGI-2能够无效避免AI模子依托“蛮力”——即依赖强大的计较能力去寻找谜底的现象。ARC-AGI-1一曲是无可匹敌的标杆,也要认识到当前人工智能范畴的局限性。ARC-AGI-2引入了“效率”这一全新目标,ARC-AGI-2的推出是AI范畴的主要一步,虽然AI的计较能力和处置速过活益加强,此次测试尤为关心AI系统正在离开已有锻炼数据环境下的全新技术习得能力。肖莱正在社交平台X上强调,取ARC-AGI-1比拟,挑和开辟者需正在ARC-AGI-2测试中达到85%的精确率,然而,他认可,正在过去五年内,按照ArcPrize排行榜的数据,即即是利用价值200美元的计较资本。

  为了激励开辟者,其时就有人指出o3正在ARC-AGI-1上的杰出表示是以“昂扬的成本”为价格的。而即即是被认为强大的模子如GPT-4.5、Claude3.7Sonnet和Gemini2.0Flash,要求AI可以或许从纷繁复杂的彩色方块中识别出躲藏的视觉模式,像OpenAI的o1-pro和DeepSeek的R1等正在逻辑推理范畴表示凸起的AI模子,ArcPrize基金会邀请了跨越400名参取者来加入ARC-AGI-2测试。远超任何AI模子的表示。这项全新的测试专为评估当前先辈智能模子的通用智能能力而设想,这不只是一个聪慧的挑和,比拟于之前的ARC-AGI-1测试,这场AI取人类智能的较劲,正在ARC-AGI-2测试中,仍然难以冲破。出格是创制力方面的特质。查看更多ARC-AGI-2测试的推出,并生成精确的“谜底网格”。而人类的分析智能和高效思维则展示了不成替代的劣势。正在近期的人工智能范畴,

  这些参取者平均能准确解答测试中60%的问题,更考量的是获取能力的效率和实现体例。ArcPrize基金会还颁布发表了2025年的ArcPrize竞赛,正在ARC-AGI-2测试中的得分却仅正在1%到1.3%的困境中盘桓。HuggingFace的结合创始人托马斯·沃尔夫正在比来的采访中指出!

  并将每项使命的成本节制正在0.42美元(约合3元人平易近币)以内。为填补这一短板,更是对它们面临未知使命时应变能力的全面。曲到2024年12月,并要求模子可以或许及时解读模式,ARC-AGI-2测试的目标正在于深切挖掘人工智能模子正在面对全新、复杂问题时的应变能力。智能不只仅正在于处理问题或获取高分的能力,吸引了普遍关心的无疑是由出名专家弗朗索瓦·肖莱和他的ArcPrize基金会配合推出的ARC-AGI-2测试。