当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑?
为什么长大以后连看动画片都不纯粹了?
妹妹说C字裤只是本体可能好看而已,穿在身上其实非常丑,爱美的女孩根本不买,是这样的么?
黄仁勋带着他芯片团队回国,他的成就会高于钱学森吗?
为什么国内程序员们没有联合起来设计一种中英文严格2:1宽度比的字体呢?
新修订的治安管理处罚法重构「被殴打还手即互殴」的认定标准,明确正当防卫免处罚,怎样从法律角度解读?
男朋友说我穿衣服太开放,难道好身材不应该显示出来吗?
养龟你踩的最大的坑是什么?
为什么***需要天赋极高?
是什么原因让你一定要用 iPhone?
哪张照片让你觉得刘亦菲美得不可方物?
人可以极简主义到什么程度?
用PHP写了个小框架,怎么才能得到大佬们的指点?
为什么iPhone还不支持地震预警?
开源项目都有哪些盈利模式,都是怎么坚持下来的?
苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗?
为什么日本人室内光脚啊?他们屋子里有这么干净吗?
为什么导弹价格如此昂贵?
现有经济体系下,贵州是不是特别吃亏?
真的有这种又苗条身材又爆炸的么?
女生真正的完美身材是什么样子?
女主播和榜一大哥现实碰面会做什么?
有什么好用的软件推荐嘛?
我为什么这么蠢,可以帮我分析一下蠢的原因吗?
为什么很多知乎的回答推崇日本式的市区、市郊通勤铁路?
Apple watch 是否在干掉传统机械手表?
为什么抖音上的姑娘都那么好看,现实中我怎么一个也见不着?
中国有能打到美国本土的导弹吗……有的话最远能打到哪里呢?
Linux 下有没有类似 Everything 的搜索工具?
南昌舰以一对二逼退外舰详情披露,哪些内容值得关注?