占坑-目标检测

由于我主要是要了解CV,而不是深入学习。因此为了节省时间,不会再对幻灯片内容做详细的解释。未看完,占坑。

目标定位:Object Localization

image.png

下面对分类定位做详细解释:如果我们单纯的对图片分类,判断是否有行人、车之类的,可以直接通过Softmax层来输出结果;但如果我们还想要定位,比如定位车辆,那么可以让神经网络多输出几个单元,输出一个边框界(bx,by,bh,bw:被检测对象的边框化表示)。
image.png

下面讲解如何确定目标标签y。如下:
image.png
其中,Pc表示图片中是否有我们要检测的对象,而bx/by/bh/bw指明对象位置,而C1/C2/C3告知我们对象的类型。举两个例子:
image.png
可以看到,左图车存在,所以Pc=1;而右图不存在车,因此Pc=0,剩下的数字皆不必理会。

接下来定义训练神经网络的损失函数,我们用的是平方损失函数:
image.png
我们对Pc=y1进行分类讨论。另外,这里用平方误差简化了描述过程,在实际应用中,我们可以对c1/c2/c3和softmax激活函数应用对数损失函数并输出其中一个元素值,通常做法是对边界框坐标应用平方差,对Pc应用逻辑回归函数,甚至采用平方预测误差函数也可以。

特征点检测

目标检测

卷积的滑动窗口实现

Bounding Box预测

交并比

非极大值抑制

Anchor Boxes

YOLO算法

RPN网络