多标签分类及其 caffe 实现总结

来源：互联网发布：linux显示文本名编辑：程序博客网时间：2024/06/05 01:18

一直对多标签分类(multi-label)“情有独钟”，因为一直感觉没有完全弄懂它。最近看博客看多了，看着看着突然有点感觉，所以就把目前的理解整理一下写下来。
目前我看到的多标签分类任务有下面的两种情况（如有错误，欢迎交流指正）：

上面是对多标签分类任务的一些认识，下面说一说用caffe具体的实现。
主要可以分为数据输入和损失函数两个部分：

因为caffe目前还没有明确给出制作多标签lmdb文件的功能，所以准备输入数据方面可以考虑下面的方法。

使用HDF5存储方式制作输入数据。但是，当数据量大的时候，HDF5存储方式的硬盘消耗大，而且速度慢；
使用lmdb存储方式制作输入数据：
1. data和label各存储在一个lmdb中。这一种修改的源码相对少一些，主要要修改的是生成lmdb文件对应的源码convert_imageset.cpp，可以参考上面提到的：link3、 link4；
2. data和label存储在同一个lmdb文件中。这一种方法需要修改的源码相对多一点。具体的可以参考上面提到的： link1。
使用自己的python data layer直接读取图片和label。这一种也是caffe官网上给出的多标签分类教程( link5)使用的方法，可以参考上面提到的：link2。

使用SigmoidCrossEntropyLoss。只需要在最后的损失函数层使用这一损失函数即可(可以参考上面的 link1、 link2)；
使用多个SoftmaxWithLoss。需要用Slice层将网络的label层进行分割，然后分别提供给不同的SoftmaxWithLoss层使用(可以参考上面的 link3、 link4 )。

可以根据实际需要选择损失函数，至于哪种比较有效，我也不是很清楚，如果知道的朋友欢迎留言分享。

上面就是对多标签分类任务的以及其caffe实现的一些总结，希望对有需要的朋友有一些帮助！

阅读全文

0 0