⛰️ 重磅:Gemini 1.5 Pro 正式发布,并带来一大批新升级
两个月前, Google 在 AI Studio 中推出了下一代Gemini 1.5 Pro 模型,供开发人员试用。 [1]
现在向 180 多个国家/地区通过 Gemini API 推出 Gemini 1.5 Pro 公开预览版,该版本首次提供了本地音频(语音)理解功能和全新的文件 API,使文件处理变得更加简单。
✨ 部分重要特性:
- 1M Token 上下文能力升级——支持音频和视频输入,解锁大量新应用场景。
- 多模态、推理和遵从指令等能力方面的大提升;
- 新的嵌入模式和更好的函数调用和系统指令;
- 支持Json 模式输出,提取各种结构化数据。
(首发于即刻,未经授权不得转载)
📢 解锁大量新应用场景
Gemini 现在可以听懂音频(多达 9个多小时的音频), 不仅是语言本身,还能听懂音频背后的语气和情感。在某些情况下,它甚至能听懂一些声音,如狗叫声和雨滴声。
在随图中,Jeff Dean 将录制了11.7 万多字的讲座录音,交给Gemini 1.5 Pro 转换成带答案的测试问卷。[2]
这意味着,各种场景应用的解锁:例如工作场景的会议纪要总结;对课堂和演讲的内容文字分享,以及各种录音内容转文字的解锁。 想象一下它和Siri或其他智能硬件的结合,这将是全新的生产力的释放。
📂 Gemini 可以使用无限量的文件
将Gemini 作为Copliot 助手时,你可以上传几乎无限量的文件(视频、音频和文件), 不断提问。
诸多场景的能力,以学生和研究场景,上传所有笔记和照片总结你的论文;家庭场景, 上传成百上千的照片,Geminia 找出节日假期。
💪 新型嵌入模型和更佳的API 改进
从现在起,开发者可以通过Gemini API 访问下一代的文本嵌入模型。 新模型 text-embedding-004 在 MTEB 基准测试中实现了更强的检索性能,并优于具有可比维度的现有模型。
更好的函数调用和系统指令。现在你可以选择模式来限制模型的输出,从而提高可靠性。可选择文本、函数调用或函数本身。定义角色、格式、目标和规则,引导模型针对特定用例的行为。
⚙️ JSON 模式。可指示模型只输出 JSON 对象,它能让开发人员从文本、语音或图像中提取结构化数据。
Gemini API 现已完全开放,没有等待列表。 这是山峰再一次攀升, Amazing ~🎉
📖 注释和参考:
[1] 被低估的Gemini Pro 1.5 ,带来了1M的长下文,这意味着什么?
m.okjike.com[2] 官方博客
developers.googleblog.com