导读 简单来说,出了文本交互之外,ChatGPT现在可以理解语音和图像了,语音还好说,因为本质上还是TTS的技术,让文本和语音之间互相转化。 但读...

简单来说,出了文本交互之外,ChatGPT现在可以理解语音和图像了,语音还好说,因为本质上还是TTS的技术,让文本和语音之间互相转化。 但读取图像这个能力就有点逆天了,它不是那种以图搜图的传统模式,而是用OCR技术去真的识别用户发过去的图片,哪怕这个图片是用户现拍的、没有在网上出现过,ChatGPT也能做出理解并调用大模型进行回应。 对了,根据OpenAI的说法,这个多模态版本在10个月前就训练好了,之前一直藏着,即便如此,现在出牌依然是几个代差的领先地位。

来源:TOOM舆情监测