人工智能的视觉系统

发布日期：2017-07-08 23:32:11

要使一个人工智能产品能够自主的认识自己周围的世界，给它赋予一定的感官功能是必须的，其中视觉将会是极其重要一种感官之一。我们可以赋予人工智能产品一个视觉系统来实现这种感官功能。

当一个人工智能产品有了视觉以后，就相当于它能够看到自己周围的世界了。虽然今天我们已经有了一些比较成熟的图像识别技术。但是这些图像识别技术用来作为人工智能的视觉系统的话，却有着极大的局限性。首先，今天的图像识别技术基本上都是建立在2D平面识别的基础上的，识别的内容只有2D坐标，没有3D坐标。而人工智能产品需要认识的自己周围的世界是一个多维的世界，是不可能通过2D识别的方法就能解决。

对于一个成熟的人工智能视觉系统，首先应该能够分辨出它所看到的画面中包含了那些实物，而且还要能够对些实物进行3D建模，对这些实物的大小、形状、以及相对于自己的距离做出具体的判断。因此，人工智能的视觉系统，必须采的3D的，对图片的识别也应该采用3D识别技术。

其实3D图像识别比2D图像识别具有更大的优越性的。
首先，对于2D图像而言，一个色点，只有x和y坐标，却没有z坐标。所以对于一个色点，到底是1米远处的色点还是10米远处的色点，程序是无法区分的，而事实上1米和10米之间的差值却是无法忽略的。这会导致两个看似相邻的点，其实是不相邻的，这只不过是他们在xy平面上的投影是相邻的而已。但在3D图片中，一个色点不光有x和y坐标，还有z坐标，这样的问题就会轻易避免了。
其次2d图片对图像的识别往往依赖于颜色值，而颜色值往往又和周边的环境比如光线等有关系。如果一个物体在轮廓线上的颜色和周围环境的颜色几乎没有差异的话，软件将识别不出这个物体来。但如果是3d图片，即使是同样的颜色，也可以找到轮廓线。因为很多时候轮廓线和背景之间，在z坐标上往往有一个明显的差值。

但是要让一个视觉系统能够进行3d识别，首先需要这个视觉系统具有3D建模的能力，要能够把看到的画面转换成3D模型。也就是说，这个系统所看到的画面上的每个色点，除了有颜色信息以及x和y坐标的信息外，还一定包括z坐标的信息。这一点也许可以通过模拟人类的视觉系统来实现，因为我们可以轻轻松松的判断出我们所看到的每一个物体离我们是远还是近。