计算机视觉面临的挑战

导言——人类及其感官

错觉：反映了大脑在于大量复杂视觉数据的斗争中做出的隐藏假设

与机器相比，人类视觉系统的一个优势是大脑拥有超过100亿个细胞（或者神经元），其中一些细胞与其他神经元接触远远超过1万个，如果每个神经元充当一种微处理元，那么我们将有一个巨大的计算机，并且其中的所有处理元件都可以同时工作，以最大的单台人造计算机来说，它只有数亿个性能有限的处理元，大部分眼-脑系统的视觉和心理处理任务在瞬间就可以完成，目前的人造系统是不能完成的。除了规模的问题之外，如何组织这么大的处理系统、如何编写程序也是很大的难题，而且很明显的是，眼-脑系统在一定程度上时由进化决定的，更有趣的是，人类可以通过积极的使用和训练这个系统进行动态的编程

视觉的本质

识别过程

想象一台计算机通过死记硬背来学习模式和对应的类，那么就可以通过将任何新模式与这个先前学习的“训练集”进行比较，并将其分配给训练集中最接近模式的类别来进行分类或者识别，例如26个字符的识别

解决识别问题

解决识别问题的一个明显方法是以某种方式对图像进行标准化。

物体定位

在许多实际应用中，有必要在图片中搜索各种类型的物体，而不仅仅是解释图片的一小部分区域。

视觉是逆向图形学

计算机图形学是由计算机生成图像，从对场景的抽象描述和对图像形成规律的了解开始。
视觉是从图像集和图像新形成规律的知识开始来获得物体集描述的过程。

本文的内容主要来自于计算机视觉原理、算法、应用及学习（原书第5版）袁春刘靖译