以下是对2025年3月26日AI相关论坛内容的总结,主要关注模型发布、性能评测、应用探索、工具推荐和行业讨论:
一、 最新模型发布与测评:Gemini 2.5 Pro 和 DeepSeek-V3 引领风潮
- Gemini 2.5 Pro 实验版发布与测评:
- 性能卓越:Gemini 2.5 Pro 实验版 (gemini-2.5-pro-exp-03-25) 在 Chatbot Arena 评测中登顶,并于 Aider LLM Leaderboards 排名第一。
- 功能特性:支持高达 100 万 token 上下文窗口,处理多模态内容(文本、音频、图像、视频、代码库)。免费试用,但有速率限制。
- 问题与局限性:有用户反馈 Gemini 2.5 Pro 在中文回答中混杂其他语言。数理能力可能较弱,对图片理解能力有所下滑。
- 模型替换:Gemini 2.0 Pro Exp 已被移除,新的推理模型 Gemini 2.5 Pro Exp 上线。
- API问题:有用户反馈 Gemini API 被暂停使用,以及 NeoAPI 无法调用 Gemini 2.5 Pro 模型。
- DeepSeek-V3 模型:
- 性能提升:DeepSeek 发布 V3-0324 模型更新,在 Artificial Analysis 排行榜中成为得分最高的非推理模型。
- 功能更新:推理能力大幅提升,前端开发任务表现更出色,中文写作和搜索能力显著优化,工具调用、角色扮演、问答闲聊等方面也有提升。
- Function Calling:DeepSeek 的 Function Calling 功能已可用。
二、AI 应用探索与问题
- 特定任务表现:
- AI 在“小鹤音形”拆字任务上表现不佳。
- 部分模型(如 o1-pro、Gemini 2.5pro、Grok3)无法解决特定几何问题。
- Gemini 2.5 Pro 在编写 AI 五子棋游戏时仍表现较弱。
- 图像生成:OpenAI 新推出的图像生成功能存在将生成图片直接贴到原图上的问题。
- 准确性问题:大模型的准确度是一个非常大的问题,特别是在创作和代码修改方面,需要人工核查。
- 应用开发:
- 有老板想做一个连接大模型的 AI 音箱,用于咖啡馆的物联网设备操控,寻求硬件资料推荐。
- 有人询问是否有根据代码画出运行逻辑的 AI 或应用。
三、 资源与工具推荐
- 免费 Gemini 2.5 Pro 和 Deepseek V3-0324:KKV AI 提供免费在线使用 Gemini 2.5 Pro 和 Deepseek V3-0324 的服务。
- OpenRouter:OpenRouter 提供免费使用 Gemini 2.5 Pro 的服务。
- AI API 代理:招募 AI-api 代理合作伙伴,提供包含主流 AI 模型的 API 网站。
- 开源AI电子书阅读器:Anx Reader 上架 App Store,限时五折,支持全平台数据同步,集成多种AI能力。
*
[送码] 开源的 全平台数据同步 AI 电子书阅读器 Anx Reader 终于上架 App Store 限时五折 50% off!
*
[送码] 开源的 全平台数据同步 AI 电子书阅读器 Anx Reader 终于上架 App Store 限时五折 50% off!
四、 行业动态与其他讨论
- AI 策略:讨论谷歌与微软的 AI 策略差异,认为谷歌通过倾听用户反馈和大量人类反馈 RLHF 实现了从落后到反超。
- 数据抓取对抗:Cloudflare 推出 AI Labyrinth 工具,对抗未经许可抓取网站以获取人工智能训练数据的网络爬虫。
- AI工具错误纠正:讨论 DeepSeek 等 AI 工具将客服电话搞错的问题,建议 AI 在回复准确性要求高的内容时给出引用来源。
- 招聘信息:深圳至简天成科技招聘 Python 高级开发工程师(AI 方向)。
本次讨论主要围绕 Gemini 2.5 Pro 和 DeepSeek-V3 的最新进展,以及 AI 应用的实际问题和行业趋势展开。