再来看视觉模型,也就是多模态模型可以看到其实就是一个模型,能同时文字和图片,视频等,这里有视觉转译。这个经常用,其实就是把图片和提示词,同时作为提示词提供给模型。可以看到上面这样就可以把图片的内容描述出来,然后使用。再作为知识库的内容,然后再进行切片等。实际上千问也是支持视频理解的,但是没有上传视频的功能。但是Gemini是有的,可以看到