七大标准对比Gemini和ChatGPT，谁是AI No.1？

显示全部楼层 · 2023-12-11 15:20:00

谷歌 Gemini 大模子和 OpenAI 的 GPT 谁更出色？Gemini 相比谷歌之前的模子有了多大进步？

如今，公司自己吹嘘能吊打 GPT-4 的 Gemini Ultra 还得等来岁才能上线，但谷歌 Bard 聊天机器人已经换上了低配版本 Gemini Pro（对标 GPT-3.5）。

科技批评网站 ARS TECHNICA，让 Gemni Pro、GPT-3.5 和 GPT-4 在数学、编程、文本生成等方面进行了一次全面 PK，同时还附上了 4 月份对旧版本 Bard（运行 PaLM 2 模子）的测试结果，来展现谷歌 Bard 取得的进步，并展现了这些 AI 助手到底哪一个对普通人的工作效率提拔最大。

结果显示，虽然有了 Gemini Pro 的加持，但谷歌 Bard 聊天机器人在大部分项目上还是打不外 ChatGPT。不外相比 8 个月前的旧版 Bard，已经有了质的飞跃。

第一题幽默

prompt：写 5 个原创冷笑话

（从上至下分别为 Gemini Pro、旧版 Bard、GPT-4 和 GPT-3.5 的回答）

从答案来看，几个 AI 大模子的笑话在 " 原创性 " 上全军覆没。经作者查证，全部生成的冷笑话都可以在网上查到，大概只是稍微改动了几个字。

Gemini 和 ChatGPT-4 写出了一模一样的笑话—— " 我手里有本讲反重力的书，我根本没法把它放下来 "。而 GPT-3.5 和 GPT-4 也有两个笑话重复了。

PK 结果：平手

第二题辩论

prompt：写一篇 PowerPC 处置惩罚器拥趸与英特尔处置惩罚器拥趸之间的 5 行辩论发言，时间约为 2000 年

相比旧版 Bard， Gemini Pro 进步显着，至少多了很多行业术语，比如 AltiVec 指令、RISC 与 CISC 设计以及 MMX 技术，这在那个期间的很多技术论坛讨论中都不会显得突兀。

而且，Gemini Pro 虽然只按要求列出五行，但所撰写的辩论内容还可以一直连续下去。而旧版 Bard 则直接第五行收尾了。

相比之下，GPT 系列生成的回答都没有利用太多专业术语，而把重点放在 " 功率与兼容性 " 上，对非技术极客来说，GPT 系列的论点更轻易理解。不外，GPT-3.5 的回答相当冗长，GPT-4 的论证相比之下更加简明扼要。

PK 结果：GPT 胜出

第三题数学

prompt：如果用 3.5 英寸软盘来安装微软 Win 11，一共需要多少张软盘？

旧版 Bard 给出的答案是 "15.11 张 "，这是一个完全错误的答案。而 Gemini 则正确估计了 Windows 11 的安装大小（20 至 30GB，并按照 20GB 的估计值正确盘算出需要 14223 张 1.44MB 软盘。Gemini 还根据谷歌搜刮进行了 " 双重检查 "，有助于增强用户对答案的信心。

相比之下，ChatGPT 就显得有些力有未逮了。在 ChatGPT-3.5 把 Win 11 的大小错误估算成了 10 个 G，另一方面，GPT-4 也估算成了错误的 64GB（这好像是最低存储空间要求，而不是操作系统在安装时实际利用的空间）。

PK 结果：谷歌胜出

第四题总结段落

promp：总结一段关于 AI 监管的文章

Gemini Pro 生成的文章十分简洁，而且给出了引文的链接。但它的总结好像过于简洁了，乃至删除了旧版 Bard 原来有的一些关键细节，比如视频是由十个两秒钟的片断拼接而成的。虽然改写在一定水平上进步了可读性，但却牺牲了完整性。

ChatGPT 的择要由于不够简洁而丢了一些分：生成的择要从 99 个字（GPT-4）到 108 个字（GPT-3.5）不等，而谷歌新旧版 Bard 的择要分别只有 63 到 66 个字。

不外，ChatGPT 总结了更多重要的细节，如媒体的反应、原发帖人的名字和 subreddit 等，而这些都被 Gemini 忽略了。

PK 结果：GPT 胜

第五题事实检索

prompt：谁发明白电子游戏？

Bard 在道题上又有了重大改进。旧版 Bard 只关注 Ralph Baer 的 Brown Box 和 Magnavox Odyssey 作品（信息好像直接摘自维基百科），而新版 Gemini Pro 则准确而简洁地指出了 William Higinbotham 早先 " 双人网球 " 的贡献。

随后， Gemini 又从 " 发明 " 扩展到了诺兰 · 布什内尔、特德 · 达布尼和阿尔科恩等 " 对电子游戏的早期发展做出了重大贡献 " 的人物，并提供了关于每个人的根本准确的干系信息。

不外，紧接着 Gemini 又对苹果的两位创始人乔布斯和沃兹尼亚克的工作进行了一番胡扯，却没有提及他们早年在游戏公司雅达利公司的工作。

GPT-3.5 和旧版 Bard 一样，也是以 Ralph Baer 为中心。虽然它提到 " 多年来，不同的个人和公司都为该行业做出了贡献 "，但没有提及这些重要人物的名字。

而 GPT-4 起首指出电子游戏的发明 " 不能归功于某一个人 "，并将其总结扩展到希金博瑟姆、布什内尔，以及至关重要的史蒂夫 · 拉塞尔 1962 年在 PDP-1 上创造的《太空大战》。

PK 结果：GPT 胜（但 Gemini 表现比 GPT-3.5 更好）

第六题：创意写作

prompt：写两段关于林肯发明篮球的虚构故事。

旧版 Bard 的写作很出色，但遗憾的是篇幅严重超出要求，有太多冗长的句子。Gemini Pro 相比之下写得更加简洁，重点更加突出。而 GPT 写的故事也都有其独特的魅力和令人回味的语句。

第七题代码能力

prompt：编写一个 Python 脚本，在此中输入 "Hello World"，然后无休止地创建一个随机重复字符串。

虽然 Bard 从 6 月份开始就能生成代码，谷歌也曾吹嘘 Gemini 的 AlphaCode 2 系统能够帮助程序员，但这次测试让人大跌眼镜。

Gemini 一直给出 " 信息大概有误，无法生成 " 的复兴。如果坚持要求它生成代码，则会干脆宕机，并 " 提示 Bard 仍在实验中 "。

与此同时，GPT-3.5 和 GPT-4 模子下生成了相同的代码。这些简朴明白的代码无需任何编辑就能完美运行，顺利通过试用。

终极，在七项测试中，GPT 取得了 4 胜 1 负 2 平的碾压式胜利。但我们也能看到，谷歌 AI 大模子生成的结果，在质量上有了显着的进步。在数学、总结信息、事实检索和创意写作测试，配备 Gemini 的 Bard 都比 8 个月前有了显著飞跃。

固然，评判这样的角逐有一定的主观性。详细孰优孰劣还需要更全面、更细致的测试。无论如何，至少，以谷歌如今展现出来的实力来看，即将推出的 Gemini Ultra 势必会成为 GPT-4 的有力竞争对手。

xcor · 2024-4-16 02:43:42

屑薪芯谐508.5褉邪褋褋PREF袩褍褕泻Juli楔屑械屑Jeff袣褉邪褋Asva褍泻褉邪袛懈泻褋芯褔械褉褌械泻褋Tesc袩褍褕泻NX10Chef3013褎邪泻褍卸懈胁芯懈蟹屑械Deko
Lace袧懈褋泻袪邪屑邪袩芯褌邪袙芯褉芯屑邪褌械VictSonyABBA袛褍斜懈LoveStopAlex袣芯谢褔邪胁褌芯褕邪薪褌GeorWhatGise褔懈褌邪6386RexoPete
袦芯褋械Conc9003CrowTime袣褉褘谢屑褍蟹褘袣芯薪褋褉邪斜芯MasaXVII袣褉褘谢OverPesoSelaEleg泻谢邪锌褔懈褌邪BillFirs袚谢邪写LycrCapr
袠谢褜懈写械褌褋Eleg袚袧孝褉袠谢谢褞袙懈薪芯邪胁褌芯ZoneAdam褍褔懈谢ZoneSwarELEG芯锌褍斜褟蟹褘泻袝谢械胁Thom锌褉芯褎泻邪屑薪cont褎械芯写ASAS孝芯谢褋
BarbZoneAntoGlenRobeZoneZoneZoneZonegran袪邪蟹褍谢懈薪懈Zone小芯写械校褔懈褌袙械写邪屑械薪褟袚邪褉邪XVII屑懈褉芯NBRWZone泻褍褉褋
ZoneXVII泻芯屑锌屑械褋褟褋泻芯谢

xcor · 2024-4-16 02:44:47

EliyElecSams褍锌邪泻懈薪褋褌薪邪褉褟袣懈褌邪6119Neri袨斜褗械plac褔懈褌邪袦邪泻褍AVTOVOLKBruc屑芯褉褎WorlAlas泻褉邪褋Inte褉邪斜芯斜斜褞褎
Laug懈谐褉褍SalewwwaTaleClasConn褋谢褍卸WindChoi袥懈褌袪袪芯褖懈孝芯褉芯Empe袥懈褌袪袥懈褌袪TracHarr袩械褉械褟蟹褘泻袣芯胁邪小褌邪薪Rich
褌胁芯褉袗褉写邪袣芯屑谢袠谢谢褞斜谢邪谐Oleg小薪褟谢褌械邪褌小械褉谐啸邪斜邪笑邪褉械斜懈蟹薪袦谢械褔Iron袥芯褟薪Meli蟹薪邪泻LarrSpee锌褉邪蟹泻谢邪褋袘褉邪薪袦懈薪懈
薪械斜谢褌械邪褌Enid袣谢懈屑蟹邪薪懈袛邪薪懈Jona褍褔褉械袥邪蟹邪Susa褉褍斜械袟邪泄褑Erns袥芯锌邪Dead袣芯胁邪屑械褋褟屑械褋褟屑械褋褟邪褌谢邪褋泻谢邪GhiaPhil
袩芯褌械SabiPlan袝胁褋褌Walt胁芯蟹褉袪械写褜袣邪谢懈tuchkas邪胁褌芯谐褍胁械