OpenAI 不值得,完全就是一个弱智(4o 不能识图或生图,o1 不推理)。连续开了近两年的 ChatGPT Plus,已被我退订了。隐性降智真难绷,在处理复杂问题时随机给你个弱智结果,让人去验证太心累了...
相比之下,免费版 Grok-3 就靠谱多了,是时候换个模型服务订阅了!
ChatGPT 降智的问题在网上已经被讨论很久了,我之前也没写文章聊聊。趁现在我的 ChatGPT 也降智了,就来详细聊聊这个话题。事情起因是这样的,我最近使用 o1 模型提问,很多问题都在几秒内给出回答,而且推理的过程十分简单,就感觉应该是被降智了。然后我用之前 OpenAI 自己提问过的一个问题进行测试,给出的结果更是离谱,反观免费版 Grok-3 ,那是真靠谱。
prompt:
相同的问题,我也用 DeepSeek 测试了一下,虽然给出了正确答案,但耗时有点久(91s),这么比对下来似乎 Grok-3(13s)更高效,最有意思的是,Grok-3 在思考过程中认为结果 3 应该用框框起来,结果真搞了框。
DeepSeek-R1 与 Grok-3 似乎使用了不同的推理策略,单从本次测试结果来看,我个人更倾向于 Grok-3 的推理过程。下面我粘贴了这两个模型的推理:
目前关于 ChatGPT 降智,众说纷纭,官方也从未在公开信息中表示过。我梳理了一下网上流传比较广的说法:
导致模型降级的不透明因素太多,哪里出了问题也很难用几句话说清,所以大家如果遇到降智也只能自己逐一排查。
结果因人而异,不同的节点 IP 也可能会导致测试的不一致性,建议大家新开对话或清除浏览器缓存多测几次。
提出复杂问题,让模型深度思考,可以用来评估是否被降智,但这种方法对普通用户而言有点困难(除非可以一眼看出结果,否则很难分清高低)。所以目前网上最主流的验证方式是让 ChatGPT 自己罗列出可用工具: