亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

Gemini 1.5和OpenAI模型在復雜推理題上的較量:IQ和SAT數學題測試

更新于2024年11月14日,使用Gemini Experimental 1114版本,解决了更多一个问题。

这周人工智能界又忙得不可开交,尤其是OpenAI发布了其o1模型,该模型以先进的推理能力著称,并在编程和数学方面表现出色,特别是在代码和数学计算方面(链接)。谷歌也不甘示弱,最近曝光了自家的模型(目前尚未公开),这些模型在数学奥林匹克问题上的表现据称已经达到了人类水平(链接)。看来这两家公司正在激烈竞争,争夺这个迅速发展的领域的领先地位。

双子星1.5 vs. ChatGPT 4 vs. 开源o1

我看了一个视频,视频通过应用自定义提示,将ChatGPT 4和OpenAI o1进行了对比,以对ChatGPT模型进行深度分析。

观看并进行比较确实很有趣,而且很有启发性。现在的问题是看看 Gemini 1.5 在其最新版本中能取得什么样的表现。我使用了 Gemini 1.5 Pro 和 Flash 版本 0827,并用条件输出提示进行了测试。

双子星 1.5 Pro 带有上下文中的思考链提示版本

为了使其更具挑战性,我还测试了不使用链式思考(COT,即chain-of-thought)的Gemini 1.5 Pro。

你可以在这里找到IQ测试题 here,而SAT数学题则可以在这里找到 here

结果

Gemini和OpenAI模型的推理题结果

智力题5

这个问题挺有意思的。在视频里,OpenAI的模型给出的答案都不对,但Gemini 1.5 Pro和Flash回答得很准确。在我进行的测试中,我多次询问了这个问题,发现Gemini有一次回答的是“C. 海豚”。这让我有点意外,我还试了直接调用ChatGPT 4o API的情况,当我把温度设置为0.5时,API给出了正确的答案。

我的几点心得
1 这篇文章没有任何科学测试支持。就像视频中展示的那样,Gemini今天在这些问题上会比OpenAI的模型有更好的结果。
2 双子座模型真的被低估了。虽然作为一名Google Workspace的GDE,我自然更关注Google的模型,但这次测试进一步证实了我之前的想法,那就是它们的确很令人印象深刻。
3 智力测验问题5的例子说明了即使是细微的模型调整也会显著影响结果。一个错误的答案可能通过调整变为正确,因此不断探索改进的方法并质疑模型的回答非常重要。
4 对双子座的测试引发了关于其实际效果的问题。无论是否使用带有上下文的链式思维提示,双子座的总体测试结果都相同,但使用该提示可以提供更详细的答案。
5 这项测试并不评估答案的质量;它只是一个选择题测试。在检查双子座的答案是否符合测试标准时,它得到了8分(满分10分)。
6 双子 1.5 版表现出了与 OpenAI 模型相当的强大性能。然而,正如谷歌所强调的,双子 1.5 Pro 在处理高级任务和进行推理方面表现出色。
點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消