Gemini1.5ProAI现在支持音频提示但并不适合所有人
谷歌在2月中旬推出了Gemini1.5Pro升级版,其大语言模型(LLM)的大幅升级让AI粉丝们大吃一惊。GeminiPro为任何人都可以访问的免费Gemini产品提供支持。GeminiUltra是您必须通过GoogleOne订阅付费的版本。
Gemini1.5Pro已经和Ultra一样强大,最近还进行了重大升级:上下文窗口最多可容纳100万个代币。这意味着您可以向其提供约700,000个单词、超过300亿行代码、11小时的音频或1小时的视频内容的提示。
快进到4月中旬,Google宣布Gemini1.5Pro可通过VertexAI开发平台向企业用户进行测试。测试将包括支持在提示中使用音频文件,这是genAI产品的一项令人惊叹的功能。然而不幸的是,目前并不是每个人都可以使用Gemini1.5Pro。
那些有幸测试Gemini1.5Pro的人将能够上传任何类型的音频文件,并向人工智能询问基于这些文件的信息。作为一个一直使用ChatGPT支持的应用程序Whisper来转录音频文件的人,我想说Gemini1.5Pro的这个功能是我希望从其他genAI产品中看到的功能。
对音频文件的支持打开了许多扇门。我使用该功能进行采访和视频通话,因为它显着提高了我回忆细节的能力。这一功能显然也使转录变得更加容易。
我想说的是,Gemini对音频和视频文件的支持也强调了管理此类数据的良好隐私政策的重要性。在不知道我的数据是安全的并且不会用于训练人工智能的情况下,我不想将音频文件上传到Gemini或任何其他genAI程序。
我期待看到一旦公众能够使用该功能,谷歌将如何处理上传到Gemini的音频文件的隐私。
不幸的是,目前尚不清楚Gemini1.5Pro的公开Beta测试还要等多久。或者谷歌何时将为Gemini带来对音频和视频提示的支持。我想说GoogleI/O2024将于5月举行,届时我们将了解有关Google2024年人工智能计划的更多细节。
目前,Google的Gemini1.5Probeta测试已包含在该公司的GoogleCloudNext'24公告中。除了让Gemini1.5Pro可供测试之外,谷歌还宣布了其他AI升级。
值得注意的是,谷歌还更新了其文本到图像生成模型Imagen2。它现在支持修复和修复,让您可以添加或删除照片中的对象。
Imagen生成的图片还将支持SynthID数字水印。这是谷歌的另一款产品,它为人工智能生成的图片添加了隐形水印,以识别其来源。