如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

时间：2025-06-26 07:45:15来源：当前位置：当前位置：首页 >

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 有什么方法可以更快地理解 J***aScript？

下一篇 : 怎么评价程序员40岁了竟然还在撸代码？

相关文章：

{dede:myad name='右侧广告位'/}

ssd固态硬盘sata的好还是m.2好呢？

别听其他人给出的什么技术指标回答，没太大意义。我用自己亲自...
2025-06-24阅读全文 >>
国内大厂现在用rust的多吗？

RUST在linux内核中持续了好几年，不断有特性合入lin...
2025-06-24阅读全文 >>
发现孩子走丢的那一刻，你是什么心情？

新鲜出炉，热乎的丢孩子经验有了。小女孩，四岁。今天在...
2025-06-24阅读全文 >>
现在个人博客不能备案了吗？

个人博客是不必要备案的。很多人由于认知局限，以为只能使用国...
2025-06-24阅读全文 >>
如何看待 Rust 的应用前景？

Rust对C++的威胁不威胁先放在一边，rustdoc文档功...
2025-06-24阅读全文 >>

养花知识本月排行

1微软edge浏览器为什么逐渐被其他的浏览器代替？
MiniMax Week第三天推出通用 Agent，体验如何？对行业会带来哪些影响？
前端 css 中的 Grid 属性有哪些？
儿子抑郁四年左右了，他的未来该怎么办？
想知道这个女孩是谁?
西安一商场大屏播放巨大电风扇，这真的能起到「望扇止暑」效果吗？还是单纯营销创意？
为什么在日本是实体店干掉电商，在中国却是电商干掉实体？
iPad Pro 能否取代 Surface Pro？
有一个***约你出去，你会去吗？
在武汉，你们的找对象标准是怎样的？

{dede:myad name='右侧广告位'/}

养花知识精选

养花知识推荐