背景
近期各大厂的大模型纷纷刷新纪录,前有Deepseek搅动整个AI届,再有OpenAI放出o3,o4, Meta也公布了最新的大模型(后来有很多测试说翻车),再有就是Google Gemini 2.5 Pro, 是目前最强悍的MoE大模型(2025-04-20)。
敲黑板
- 提升推理能力,尤其是数学和理工类评分大幅上升
- 提升编码能力,可以轻松应对网页开发等任务
- 原生多模态,文本,音频,图片,视频多模态支持
- 超长上下文,最大上下文窗口为100万Token
Gemini 2.5 Pro
目前有两个预览版,Gemini 2.5 Flash Preview和Gemini 2.5 Pro Preview。
两个版本的区别主要在于
模型名称 | Gemini 2.5 Flash Preview | Gemini 2.5 Pro Preview |
---|---|---|
免费额度 | 每天500次请求, 用户数据用于改进后续产品 | 每天500次请求,户数据用于改进后续产品 |
付费版价格 | 每1M输入token 为 USD0.15(文字或图片或视频),USD1.00(音频);每1M输出token 为 USD0.60(不带深度思考)和USD3.50(带深度思考) | 每1M输入token 为 USD2.50;每1M输出token 为USD15.00 |
输入类型 | 多模态:音频 图片 视频 文字 | 多模态:音频 图片 视频 文字 |
最大输入Token长度 | 100万 | 100万 |
最大输出Token长度 | 64K | 64K |
音频生成 | N | N |
函数调用 | Y | Y |
结构化输出 | N | Y |
缓存 | Y | N |
代码执行 | Y | Y |
可以看到两个版本的功能几乎相当,只是Flash版本比Pro版本价格更低,而且响应速度更快。
实测 1
我们让Gemini 2.5 Pro Previw来做一个贪吃蛇小游戏。
首先登陆Google 账号之后,进入https://aistudio.google.com/
左侧选“Chat”, 右侧在下来菜单中选择“Gemini 2.5 Pro Preview 03-25”
在对话输入框中输入:
create a beautiful interactive ps5js snake game (no html),
I don't want to control the snake using arrow keys,
so make sure the snake is able to be moving by itself
and eating foods and avoiding hitting it's own body
我让Gemini给我做一个贪吃蛇游戏,但是我不想去按方向键控制小舍,请Gemini自动让小蛇可以寻找到食物,吞吃食物,并且避免碰撞到自己的身体
经过32秒的思考,AI就完成了这个任务,如果你点开查看模型思考过程,里面有详细的过程
页面滚动到下方,代码已经生成了,现在拷贝到ps5js(https://editor.p5js.org/
)
这个游戏仅仅300行js代码,但是效果让我惊掉下巴了。游戏完美地满足了我仅仅简单描述的需求,小蛇会走之字线路前往食物所在地,并且知道用较长的线路来避免自己碰到自己。截图中蛇头为最浅的绿色,蛇尾为最深的绿色。 在小蛇自己得了58分之后,终于碰到自己游戏结束。
实测2
我继续让Gemini 2.5 Pro用Python+Pygame来完成同样的游戏,
now please rewrite this game using python+pygame,
I will run the python code in https://trinket.io/features/pygame
我使用https://trinket.io/features/pygame
来快速测试这个游戏代码,
仍然是300多行python代码,再次完美实现了,居然如此强悍!
实测 3
我随便抓了一篇论文给Gemini看看
read this article at https://arxiv.org/pdf/2501.14406,
explain the experiment introduced in the article, and interpret Fig. 2 and Fig. 3
嗯,怎么说找不到,看你是我给的日期是在“未来”或者文件本身不存在,难道Gemini的实时搜索能力是基于训练数据的?难道arxiv屏蔽了google的bot?也不应该啊。 我有测试了2406, 2310的arxiv论文,Gemini都可以访问到。
好吧,算了,过,下一个
实测 4
让Gemini 2.5 Pro进行网页摘要,我提交的是我网站上的一个页面
can you read this page https://yesmiracle.net/post/vs-code-cline-deepseek-code-copilot/
and summarise the page content in Chinese language(less than 200 words)
结果这货居然直接翻车了,我可是半个字都没提到CLion或者Java/Kotlin啊,大模型还是出现幻觉
然后,我还是不死心,又可口婆媳地跟它说:你好好看,文章里没有到内容你不要摘要出来,并且我修改了模型的Temperature为0.1降低模型自我发挥的比例,但是,我还是太天真了。。。
翻车还是翻车的,这次居然又凭空给我加了一个LSP客户端项目,还说deepseek-coder,我有的是deepseek-chat模型好吧,哈哈哈,我感觉我跳进黄河也洗不清了,还是请读者直接访问我的页面吧 https://yesmiracle.net/post/vs-code-cline-deepseek-code-copilot
使用体验
- 虽然Gemini 2.5 Pro号称其最新知识截止2025年1月,但似乎模型在预处理阶段就人为剔除了超过某一个日期之后的请求,直接输出为“无法回答未来的情形”。
- 代码能力还是非常强的,尤其是单文件编码能力,也就是一个文件之内搞定所有需求
- 摘要能力实在不敢恭维,不能说毫不相关吧,也算是睁眼说瞎话胡说八道了