⛰️ 重磅：Gemini 1.5 Pro 正式发布，并带来一

即刻App年轻人的同好社区

下载

Szhans

2年前

⛰️ 重磅：Gemini 1.5 Pro 正式发布，并带来一大批新升级

两个月前， Google 在 AI Studio 中推出了下一代Gemini 1.5 Pro 模型，供开发人员试用。 [1]

现在向 180 多个国家/地区通过 Gemini API 推出 Gemini 1.5 Pro 公开预览版，该版本首次提供了本地音频（语音）理解功能和全新的文件 API，使文件处理变得更加简单。

✨ 部分重要特性：

- 1M Token 上下文能力升级——支持音频和视频输入，解锁大量新应用场景。
- 多模态、推理和遵从指令等能力方面的大提升；
- 新的嵌入模式和更好的函数调用和系统指令；
- 支持Json 模式输出，提取各种结构化数据。

（首发于即刻，未经授权不得转载）

📢 解锁大量新应用场景

Gemini 现在可以听懂音频（多达 9个多小时的音频），不仅是语言本身，还能听懂音频背后的语气和情感。在某些情况下，它甚至能听懂一些声音，如狗叫声和雨滴声。

在随图中，Jeff Dean 将录制了11.7 万多字的讲座录音，交给Gemini 1.5 Pro 转换成带答案的测试问卷。[2]

这意味着，各种场景应用的解锁：例如工作场景的会议纪要总结；对课堂和演讲的内容文字分享，以及各种录音内容转文字的解锁。想象一下它和Siri或其他智能硬件的结合，这将是全新的生产力的释放。

📂 Gemini 可以使用无限量的文件

将Gemini 作为Copliot 助手时，你可以上传几乎无限量的文件（视频、音频和文件），不断提问。

诸多场景的能力，以学生和研究场景，上传所有笔记和照片总结你的论文；家庭场景，上传成百上千的照片，Geminia 找出节日假期。

💪 新型嵌入模型和更佳的API 改进

从现在起，开发者可以通过Gemini API 访问下一代的文本嵌入模型。新模型 text-embedding-004 在 MTEB 基准测试中实现了更强的检索性能，并优于具有可比维度的现有模型。

更好的函数调用和系统指令。现在你可以选择模式来限制模型的输出，从而提高可靠性。可选择文本、函数调用或函数本身。定义角色、格式、目标和规则，引导模型针对特定用例的行为。

⚙️ JSON 模式。可指示模型只输出 JSON 对象，它能让开发人员从文本、语音或图像中提取结构化数据。

Gemini API 现已完全开放，没有等待列表。这是山峰再一次攀升， Amazing ～🎉

📖 注释和参考：

[1] 被低估的Gemini Pro 1.5 ，带来了1M的长下文，这意味着什么？m.okjike.com

[2] 官方博客 developers.googleblog.com

30 412

来自圈子

AI探索站

100747人已经加入