Stanford CS231n Lecture 1 计算机视觉历史回顾与课程大纲



本系列文章是斯坦福CS231n: Convolutional Neural Networks for Visual Recognition (winter 1516) 的听课笔记与课下补充资料。


计算机视觉历史回顾

这是一个视觉时代,目前(2016)有85%的网络信息是像素形式,它们难以被利用,李飞飞将它们称为“网络中的暗物质”。CS231n聚焦于神经网络这一模型和计算机视觉这一应用。

视觉大约在5.4亿年前出现,有人认为,视觉的出现导致并驱动了生物大爆发。

16世纪,达芬奇发明了照相暗盒,开始复制人们看到的信息。

1959年,Huber&Wiesel研究生物的大脑是如何处理视觉信息的。他们发现,大脑从简单的形状(例如,边缘)开始处理视觉信息。在视觉处理的第一步,基础视觉区的神经元按一列一列组织起来,每一列神经元只“喜欢”某一种特定的形状。

1963年,Larry Roberts认为是边缘决定了物体外形,他的博士论文Block World是现代CV先驱。

1966年,MIT的人工智能实验室成立,标志着CV的诞生。

20世纪70年代,David Marr提出了一个重要思想,“视觉是分层的”。这一思想被Deep Learning/CNN汲取。

20世纪90年代,进入彩色时代,问题转向“感知分组”(人看到世界时会在脑中自动分割出各物体,而不是觉得只是一堆像素),这一问题现在仍未彻底解决。

进入21世纪,问题焦点从3D建模变迁到识别问题。出现了第一个商用的CV算法(实时人脸检测),它的特征学习过程有很强的深度学习特质。此后又出现了SIFT, Deformable Part Model等。后来又出现了ImageNet和神经网络的复兴。

CS231n 课程大纲

CS321n聚焦于视觉识别中的一个重要问题,图像分类。视觉识别中有很多问题与图像分类相关,比如物体检测、图像说明。

CNN是物体识别的重要工具。2012年之前的ILSVRC冠军模型采用的是“特征+SVM”,没有端到端学习的风格特色。2012年,Hinton和他的学生引领了神经网络的复兴。到2015年的MSRA,采用的仍是CNN。

AlexNet的成功离不开大量数据和高性能GPU,AlexNet只在1998年LeNet上做了很少改动。

视觉识别远不止物体识别,还包括很多内容,比如对全场景中的物体都打上标签、深入理解一幅图像……