GPT-4 是多模态的，我们可以合理地预测 GPT-4 能够做什么

Spacemesh-浏览器

*如果* GPT-4 是多模态的，我们可以合理地预测 GPT-4 *可能*能够做什么，鉴于微软之前的工作 Kosmos-1：

– 视觉智商测试：是的，人类参加的测试！
– 无 OCR 阅读理解：输入屏幕截图、扫描文档、路牌或任何包含文本的像素。直接对内容进行推理，无需显式 OCR。这对于解锁多媒体网页上的 AI 驱动的应用程序或来自现实世界摄像头的“野外文本”非常有用。
– 多模式聊天：就图片进行对话。您甚至可以在中间提供“后续”图像。
– 广泛的视觉理解能力，如字幕、视觉问答、物体检测、场景布局、常识推理等。
– 音频和语音识别（？？）：在 Kosmos-1 论文中没有提到，但 Whisper 已经是一个 OpenAI API，应该很容易集成。 Fq4AeOHWwBEKFjK