Featured image of post 全网最客观的测评:Google Gemini 2.5 Pro(含免费额度)

全网最客观的测评:Google Gemini 2.5 Pro(含免费额度)

背景

近期各大厂的大模型纷纷刷新纪录,前有Deepseek搅动整个AI届,再有OpenAI放出o3,o4, Meta也公布了最新的大模型(后来有很多测试说翻车),再有就是Google Gemini 2.5 Pro, 是目前最强悍的MoE大模型(2025-04-20)。

敲黑板

  • 提升推理能力,尤其是数学和理工类评分大幅上升
  • 提升编码能力,可以轻松应对网页开发等任务
  • 原生多模态,文本,音频,图片,视频多模态支持
  • 超长上下文,最大上下文窗口为100万Token

Gemini 2.5 Pro

目前有两个预览版,Gemini 2.5 Flash Preview和Gemini 2.5 Pro Preview。

两个版本的区别主要在于

模型名称 Gemini 2.5 Flash Preview Gemini 2.5 Pro Preview
免费额度 每天500次请求, 用户数据用于改进后续产品 每天500次请求,户数据用于改进后续产品
付费版价格 每1M输入token 为 USD0.15(文字或图片或视频),USD1.00(音频);每1M输出token 为 USD0.60(不带深度思考)和USD3.50(带深度思考) 每1M输入token 为 USD2.50;每1M输出token 为USD15.00
输入类型 多模态:音频 图片 视频 文字 多模态:音频 图片 视频 文字
最大输入Token长度 100万 100万
最大输出Token长度 64K 64K
音频生成 N N
函数调用 Y Y
结构化输出 N Y
缓存 Y N
代码执行 Y Y

可以看到两个版本的功能几乎相当,只是Flash版本比Pro版本价格更低,而且响应速度更快。

实测 1

我们让Gemini 2.5 Pro Previw来做一个贪吃蛇小游戏。 首先登陆Google 账号之后,进入https://aistudio.google.com/ 左侧选“Chat”, 右侧在下来菜单中选择“Gemini 2.5 Pro Preview 03-25”

在对话输入框中输入:

create a beautiful interactive ps5js snake game (no html), 
I don't want to control the snake using arrow keys, 
so make sure the snake is able to be moving by itself 
and eating foods and avoiding hitting it's own body

我让Gemini给我做一个贪吃蛇游戏,但是我不想去按方向键控制小舍,请Gemini自动让小蛇可以寻找到食物,吞吃食物,并且避免碰撞到自己的身体

经过32秒的思考,AI就完成了这个任务,如果你点开查看模型思考过程,里面有详细的过程

页面滚动到下方,代码已经生成了,现在拷贝到ps5js(https://editor.p5js.org/

这个游戏仅仅300行js代码,但是效果让我惊掉下巴了。游戏完美地满足了我仅仅简单描述的需求,小蛇会走之字线路前往食物所在地,并且知道用较长的线路来避免自己碰到自己。截图中蛇头为最浅的绿色,蛇尾为最深的绿色。 在小蛇自己得了58分之后,终于碰到自己游戏结束。

实测2

我继续让Gemini 2.5 Pro用Python+Pygame来完成同样的游戏,

now please rewrite this game using python+pygame, 
I will run the python code in https://trinket.io/features/pygame

我使用https://trinket.io/features/pygame来快速测试这个游戏代码,

仍然是300多行python代码,再次完美实现了,居然如此强悍!

实测 3

我随便抓了一篇论文给Gemini看看

read this article at https://arxiv.org/pdf/2501.14406, 
explain the experiment introduced in the article, and interpret Fig. 2 and Fig. 3

嗯,怎么说找不到,看你是我给的日期是在“未来”或者文件本身不存在,难道Gemini的实时搜索能力是基于训练数据的?难道arxiv屏蔽了google的bot?也不应该啊。 我有测试了2406, 2310的arxiv论文,Gemini都可以访问到。

好吧,算了,过,下一个

实测 4

让Gemini 2.5 Pro进行网页摘要,我提交的是我网站上的一个页面

can you read this page https://yesmiracle.net/post/vs-code-cline-deepseek-code-copilot/ 
and summarise the page content in Chinese language(less than 200 words)

结果这货居然直接翻车了,我可是半个字都没提到CLion或者Java/Kotlin啊,大模型还是出现幻觉

alt text

然后,我还是不死心,又可口婆媳地跟它说:你好好看,文章里没有到内容你不要摘要出来,并且我修改了模型的Temperature为0.1降低模型自我发挥的比例,但是,我还是太天真了。。。

alt text

翻车还是翻车的,这次居然又凭空给我加了一个LSP客户端项目,还说deepseek-coder,我有的是deepseek-chat模型好吧,哈哈哈,我感觉我跳进黄河也洗不清了,还是请读者直接访问我的页面吧 https://yesmiracle.net/post/vs-code-cline-deepseek-code-copilot

使用体验

  • 虽然Gemini 2.5 Pro号称其最新知识截止2025年1月,但似乎模型在预处理阶段就人为剔除了超过某一个日期之后的请求,直接输出为“无法回答未来的情形”。
  • 代码能力还是非常强的,尤其是单文件编码能力,也就是一个文件之内搞定所有需求
  • 摘要能力实在不敢恭维,不能说毫不相关吧,也算是睁眼说瞎话胡说八道了
By 大可出奇迹