网站地图官方微信:
网站首页 稻地镇 阳高县 俚岛镇 曲依乡 罗妥乡 宕昌县

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 为什么从事技术的人普遍都比较难沟通? |

    并不是难沟通。 第一个原因,因为技术人员长期进行技术类工作...

    查看详情>>
  • | 为什么B-2天下无敌? |

  • | 普通人与亿万富翁之间的差距是什么? |

  • | 新买了一台nas,第一个月下载20t+,上传5+,不会被网警盯上吧? |

  • | 发烧了一晚上没有联系男朋友,第二天发现他一条消息都没有给我发,就跟他吵架了,这是我的错吗? |

  • | 为什么很多公司都不招大龄码农? |

  • | 现在是2025年6月,现在的房价是阴跌还是暴跌?还会继续跌多久?是否已经开始分化? |

  • | 吴柳芳的真实水平如何? |

  • | 各位Unity游戏客户端前辈,想问问大家要找到一份工作还需要学什么? |

  • | 跟领导坐一辆车下乡,连司机共三人,领导问我「听说办公室主任人缘不好,你有听说吗?」,我该怎么回答? |

  • | 你最满意的10款 PC 软件是什么? |

  • 不付费就直接看的破解很难,但想遏制二传不可能 国内几乎没有上...

    2025-06-24
  • 盘点一下这些年PHP在桌面应用方面的解决方案今天作者给大家盘...

    2025-06-24
  • explorer和finder这俩货,其实都挺抽象的。 我来...

    2025-06-24
  • 站在2025年6月这个时间点,我觉得相当不错,用vue+ts...

    2025-06-24

关注我们

添加微信好友,关注最新动态