谷歌推出Gemini 1.5 Pro模型：新增音频理解及系统指令功能，引领AI技术新突破

弗兰克 • 2024年 4月 12日 pm6:25 • 产品 • 阅读 105

近日，科技巨头谷歌在AI领域再度迈出重要步伐，正式向全球180多个国家和地区推出其备受期待的Gemini 1.5 Pro模型。该模型不仅继承了Gemini系列的一贯优秀表现，还在原有基础上实现了重大升级，特别新增了音频理解能力，并引入了系统指令和JSON模式等新功能，为开发者提供了更为强大和灵活的控制手段。

据悉，Gemini 1.5 Pro模型自两个月前在Google Ai Studio中供部分开发者测试以来，就凭借其1M上下文窗口的出色性能和原生的音频理解能力受到了广泛关注。此次全球范围内的正式推出，无疑将进一步推动AI技术在各个领域的应用和发展。

在音频理解方面，Gemini 1.5 Pro模型实现了对上传的视频图像（帧）和音频（语音）的推理能力，这一功能的解锁为音频和视频处理领域带来了新的用例和可能性。开发者可以通过Google Ai Studio和Gemini API调用该模型，对音频和视频数据进行深度分析和处理，从而开发出更加智能和高效的应用。

此外，Gemini 1.5 Pro模型还新增了系统指令功能，允许开发者通过定义角色、格式、目标和规则等方式，对模型的响应进行精确指导。这一功能的引入将极大地提高模型的可控性和适应性，使得开发者能够针对不同用例对模型进行更加精准的引导。

同时，为了满足开发者对结构化数据的需求，Gemini 1.5 Pro模型还支持JSON模式输出。在JSON模式下，模型仅输出为JSON对象，便于从文本或图像中提取结构化数据。开发者可以使用cURL进行调用，后续还将支持Python SDK，进一步简化了数据处理的流程。

在函数调用方面，Gemini 1.5 Pro模型也进行了改进。开发者现在可以选择不同的模式来限制模型的输出，从而提高输出的可靠性和准确性。无论是选择文本、函数调用还是仅函数本身等模式，都能根据具体需求进行灵活调整。

除了上述功能升级外，谷歌还推出了下一代文本嵌入模型text-embedding-004/text-embedding-preview-0409。据谷歌称，该模型在MTEB基准测试中实现了更强的检索性能，并且优于具有可对比纬度的现有模型。这一新嵌入式模型的推出将为文本处理和分析提供更加高效和精准的工具。

总的来说，Gemini 1.5 Pro模型的推出标志着谷歌在AI技术领域的又一次重要突破。通过新增音频理解、系统指令和JSON模式等功能，该模型为开发者提供了更加强大和灵活的控制手段，将有望推动AI技术在各个领域的应用和发展。未来，我们期待看到更多基于Gemini 1.5 Pro模型的创新应用和产品问世，为人类生活带来更多便利和惊喜。

文章来源于互联网:科技讯-谷歌推出Gemini 1.5 Pro模型：新增音频理解及系统指令功能，引领AI技术新突破