如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-21 08:40:18
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-20 14:05:19写CUDA到底难在哪?
- 2025-06-20 14:50:17国产手机APP为什么越来越臃肿?
- 2025-06-20 15:25:18如何评价DuckDB?
- 2025-06-20 14:25:19055驱逐舰的战力被低估还是被高估?
- 2025-06-20 15:05:17MiniMax 推出全球首个开源大规模混合架构的推理模型 MiniMax-M1,其有何技术优势?
- 2025-06-20 14:05:19如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 2025-06-20 13:35:19轰20的亮相为什么被反复推迟?
- 2025-06-20 13:55:17身体上的哪些迹象表明你正在衰老?
- 2025-06-20 14:35:18为什么linux桌面那么丑?
- 2025-06-20 13:50:17你见过身边身材最好的女生是什么样子的?
推荐产品
-
H264和H265谁画质好,求回谢谢!?
如果是电影,那不一定 一个电影肯定是母带最清晰,这个大家都明 -
如何评价张靓颖刘宇宁《九万字》?
终于集齐三大女神。 张靓颖的眼镜,戴与不戴真的是判若两人。 -
如何判断鱼缸中的硝化系统是否已经成功建立?
从鱼缸里面物质转化角度来说一下哈。 首先,一个有生物的鱼缸 -
Rust开发Web后端效率如何?
先叠几个定语: 你要是写Reactive Web,用Web
最新资讯