我已阅读论文(Human activity recognition with metric learning)并试图实施它。如何计算轮廓的直方图?
作者使用通道(轮廓,光流),然后,他计算每个通道的直方图,如附图所示。
我已经计算了视频的轮廓和光流。但问题是,
1-提到的直方图的重点是什么?是否以合适的形式表示要素?
2-与HOG相同。
3-如何实现所提到的直方图?它只是划分边框? .. 非常感谢。
抱歉不便
问候
我已阅读论文(Human activity recognition with metric learning)并试图实施它。如何计算轮廓的直方图?
作者使用通道(轮廓,光流),然后,他计算每个通道的直方图,如附图所示。
我已经计算了视频的轮廓和光流。但问题是,
1-提到的直方图的重点是什么?是否以合适的形式表示要素?
2-与HOG相同。
3-如何实现所提到的直方图?它只是划分边框? .. 非常感谢。
抱歉不便
问候
我会尽力回答各种不同的问题,采用伪码后者。
1-作者的最终目的似乎是获得一个描述符窗口,他们是跟踪(我猜是跟踪,我没有看过这篇论文)。因此,在计算剪影S
和Fx
和Fy
频道之后,作者有一个MxMx3
的窗口,3个频道通过追加[S, Fx, Fy]
。这不是表示窗口的非常适合的形式,因为(1)维度很高(MxMx3
可能变量为M
),(2)不是比例或方向不变的,(3)它不是一个强健的描述符。作者仅使用直方图方法(类似于HoG中的方法但不相同)将MxMx3
通道转换为216维描述符(MxMx3 -> 216
,与M
无关)。
2-上述那种答案吧。不是HoG,而是类似于HoG,SIFT和其他特征提取方法。如果我不明白它的错误(有那么几位信息),只需将边界框划分为2×2网格(4个方块/子窗口)即可。对于每个子窗口,将其分成20个18度的切片(这不是直接向前的,但是知道像素相对于子窗口中心的位置,则可以计算角度,并因此计算其中的饼图切片它落在
然后,将具有像素p
属于子窗口(i,j)
(与0 <= i,j < 2
)和圆形切片k
,添加其值(在每个通道中)到直方图:
hist(i, j, k, c) += data(p, c)
其中c
是频道(3个频道[S, Fy, Fx]
),而data(p, c)
是您的3频道数据,像素为p
和频道c
。
您将以2x2x18x3 = 216
描述符结束。,美所提供的提取物中没有提到任何关于该标准化描述,但我想,如果它不出声,这将是刚:
hist(i, j, k, c) /= sum(abs(flatten(hist)))
或许正常化每个子窗口和渠道分开(如在猪中执行):
hist(i, j, k, c) /= sum(abs(hist(i, j, :, c)) # summing over the 3rd axis `k`
非常感谢,这篇论文是针对活动识别的。他刚刚提到了关于边界框的归一化,而不是关于直方图。你是否建议可以缩短维度的其他描述符?非常感谢 – Mammo
@Mammo如果你发现答案有帮助,考虑upvoting它!至于其他descrptors,HoG描述符(针对每个通道)的连接应该也很好,如在文章“用于人类检测的定向梯度直方图”中那样。大概看看你提到的那个作品,你会发现其他用过的描述符或特征。 –
你在问一个关于没有命名纸张的文章(更不用说放入链接)然后问一个在[Wikipedia]中描述的算法(https:/ /en.wikipedia.org/wiki/Lucas%E2%80%93Kanade_method)? –
我不是在问这个算法,我问的是在不同论文中使用的直方图的好处! – Mammo
要获得有意义的答案,您可能需要重新解释您的问题:您尝试过什么?你怎么看?你指的是哪些论文? Stackoverflow在[如何问]上有一个特殊的部分(http://stackoverflow.com/help/how-to-ask)。 –