cv学习笔记看图说话image-captioning-1

本文介绍了使用CNN和LSTM将图像和文字进行处理,并将两个神经网络结合在一起,实现多模态任务如图像搜索、安全和鉴黄等。文章还介绍了使用的Flickr8K数据集以及VGG16网络模型。最后给出了一个简单的代码示例,用于生成VGG16神经网络。