网站地图官方微信:
网站首页 包装胶带 荧光笔 隐型眼镜 夜视仪 验钞机 学习机

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 如何评价字节跳动开源的 HTTP 框架 Hertz ? |

    0 前言近期工作接触到 cloudwego 开源的 hert...

    查看详情>>
  • | 为什么bilibili后端要用go来写? |

  • | 为什么女游泳运动员看起来大部分都是平胸? |

  • | DIY的NAS易用性如何? |

  • | 开风灵月影会减少游戏寿命吗? |

  • | 求大神解答,为什么大家都不喜欢用docker? |

  • | 能分享一下你写过的rust项目吗? |

  • | 为什么QQ上的网络状态没有了? |

  • | 为什么很多人在1panel推出之后,还坚持用宝塔面板? |

  • | MiniMax 推出全球首个开源大规模混合架构的推理模型 MiniMax-M1,其有何技术优势? |

  • | 为什么各大 *** 出奇一致地设置了『摇一摇开屏广告』?如何关闭常用 *** 的这些广告? |

  • 飞牛系统(J3455、16G内存) 容器管理:1Panel或...

    2025-06-20
  • 研发人员常常会陷入为不同协议切换调试工具的泥沼,事实上,Ap...

    2025-06-20
  • 开发提效200%,这两个插件让Cursor性能飙升! 前言大...

    2025-06-20
  • 不不不,把python去掉,只用rust。 组合个毛线啊,...

    2025-06-20

关注我们

添加微信好友,关注最新动态