两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
为什么都说武器越怪,死的越快?
UBI(Universal basic income,全民基本收入)可行吗?
duckdb的性能如何?
你为什么放弃了wsl?
“哨兵模式”涉嫌泄密,你支持封杀特斯拉吗?
亚洲体坛最漂亮的十位女运动员都有谁?
为什么中国足协成了“过街老鼠”了?
哪里有便宜的实时level2接口?
为什么有的房东喜欢把房间租给女租户?
凤凰传奇曾毅公开佩戴含有不雅元素的手表,这涉嫌违法吗?如何从法律角度解读?
既然富人财富占社会总财富的 80%,那么鼓励富人消费不就可以了吗?
异性同办公室久了会不会日久生情?
如何看待M4单核性能吊打9950x?
系统文件夹FONTS里的字体能不能删掉那些根本不会用到的字体?
如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架?
Chrome 浏览器设计的神细节有哪些?
如何评价广州这座城市?
go 有哪些成熟点的后台管理框架?
为什么 Windows 没有比较成熟的第三方桌面环境(explorer.exe)?
为什么这次以色列打伊朗,网上声讨的人少了,反而都是嘲笑调侃伊朗?
为什么中国现在全球军事实力第一,但包括中国人在内很多人不认可?
为什么 Windows 系统上的安装包有 exe 和 msi 两种格式,有什么区别?
PHP现在真的已经过时了吗?
洲际导弹能打到任何地方,为什么还需要轰炸机?
Linux里面usermod -L zhangsan命令是什么?
为什么游戏中,中国跟欧洲的时延这么大,是否是海底光缆距离过长的原因?
我的实际车速是66km/h,旁边有车超速,我被拍了违章,说是车速85km/h,怎么申诉?
网传厦门某国企研发部门要求每日考察后端 400 行,前端 1000 行代码量,如属实,这个考核合理吗?
黄金,今年会达到怎样的高度?
穿瑜伽裤爬山的女生会不会害羞?