微博收藏（机器学习代码与工具）（一）

来源：互联网发布：淘宝评价怎么修改差评编辑：程序博客网时间：2024/05/18 05:36

在微博上见过很多好资料，可是以前一直没有时间好好看，都只能先转发或者收藏，最后一个学期，一定要先把这些库存一点点清掉。

——————————————————————————————————————————

1.0 卷积神经网络CXXNET

@陈天奇怪和 @antinucleon 完成的卷积神经网络代码 cxxnet（核心2k代码）和 GPU/CPU 矩阵库 mshadow（3k代码+1k注释）

评论：

@antinucleon: 天奇伟大，跟着大神受益匪浅。mshadow设计精巧，完美统一了CPU和GPU编程。依赖mshadow，cxxnet里一个Layer平均10行。在我的780 GTX上训练ImageNet可以达到211pic / sec的速度

@李沐M：建议 typedef Tensor<gpu,2> GPUMatrix 之类，直观一点。构造函数应该可以不用Shape2吧，直接丢进数字会更方便点？

@陈天奇怪：回复@李沐M: 因为所有的dimension的tensor都是同一个模板实现的，直接丢数字还真不知道怎么搞..或许cxx11的intializer list可以

@李沐M：回复@陈天奇怪: O网页链接 c++11或者boost都行。不过如果你用了c++11就意味着对gcc版本有要求了

@陈天奇怪：回复@李沐M: 其实Tensor<gpu,x>也有好处，在写代码的时候可以直接take一个模板xpu然后输入参数是Tensor<xpu,x>，然后写出来的代码cpu，gpu都可以用。

@yuzzzzzzzzz：基于这个实现的CNN和caffe比效率哪个高呢？

@陈天奇怪：回复@yuzzzzzzzzz: 在效率上应该是没有什么差别，因为最终编译出来的代码应该差不多。差别是用mshadow实现的时候写公式而不是直接写CUDA kernel。

卷积神经网络代码 cxxnet 地址

GPU/CPU矩阵库 mshadow 地址

——————————————————————————————————————————

2.0 CUDA-CONVNET2.0

谷歌Alex Krizhevsky 写了一篇在GPU集群并行Convolutional Neural Network的文章并公布了源代码

Paper：One weird trick for parallelizing convolutional neural networks地址

code地址（PS:据说google要关闭code.google.com了）

之前看过Alex的cuda-convnet1.0的代码，表示很痛苦，粗粗看了一下2.0，代码确实整洁多了。

——————————————————————————————————————————

3.0

卷积神经网络总结代码与论文

文章地址

——————————————————————————————————————————

4.0

【scikit-learn】学习Python来分类现实世界的数据

一个机器可以根据照片来辨别鲜花的品种吗？在机器学习角度，这其实是一个分类问题，即机器根据不同品种鲜花的数据进行学习，使其可以对未标记的测试图片数据进行分类。这一小节，我们还是从scikit-learn出发，理解基本的分类原则，多动手实践。

http://dataunion.org/5583.html

——————————————————————————————————————————

5.0

LDA工程实践之算法篇-2 SparesLDA

标准 LDA 算法中的Gibbs Sampling 算法实际上采样的时候速度太慢，这就是为什么学者基于 LDA 模型的稀疏性给出了 SparseLDA 算法，在速度上可以比标准采样方法要快几十倍，所以在工业应用中当然应该要实现 Sparse 的算法。

地址

——————————————————————————————————————————

6.0

《用 Python 和 OpenCV 检测图片上的条形码》正规商品的包装上都会有条形码，有想过自己写一个程序/算法来检测识别图形码么？

地址

——————————————————————————————————————————

7.0

使用Python和OpenCV在视频中实时监测条形码

http://python.jobbole.com/81130/

机器学习经典算法详解及Python实现---朴素贝叶斯分类及其在文本分类、垃圾邮件检测中的应用
http://blog.csdn.net/suipingsp/article/details/41897901

——————————————————————————————————————————

8.0

@梁斌penny：
过拟合一部分原因和训练数据少，抽样不好有关，一部分和模型变量数量有关，还有一部分和模型本身有关，比如线性模型不容易过拟合，非线性的就容易。最后其实可以利用过拟合，堵不如疏，多个过拟合的model就好像多个有偏见的人，把他们ensemble好就行了，此乃君王治国，厂长制厂之道啊。

@南大周志华：
Ensemble在做理论分析的时候通常是假设弱学习器。至于过拟合的作用，20年前就有研究，见Solich和Krogh的95年著名文章Learning with ensembles: How overfitting can be useful，他们不是你说的美军，是欧洲军

@龙星镖局：
建议读地址

@硅谷猎头TomZhang：把样本分为10份，随机用9份训练，剩下1份校核，做十次试验，解决小样本问题

@梁斌penny：回复@硅谷猎头TomZhang:是的，你说的这个是一种常用方法10-fold

@SMTNinja：回复@硅谷猎头TomZhang: 你说的是 10-fold cross validation. 这只能解决由训练数据分隔方法不同所导致的对模型好坏判断不准确的问题. 这和过拟合不是一个问题..

@为娶白富美发SCI：弱弱的问下梁博，集成学习由多个弱学习模型组成，那过拟和是不是指强学习模型呢，这样会不会冲突？

@梁斌penny：回复@为娶白富美发SCI:你不要拘泥于美军的东西，弱学习可以ensemble，过拟合的model为什么不能ensemble。。只要数量足够多，就相当于投票嘛

——————————————————————————————————————————

9.0

EasyPR——一个开源的中文车牌识别系统基于OPENCV

http://www.cnblogs.com/subconscious/p/3979988.html

——————————————————————————————————————————

@facebook开源了基于Torch的深度学习工具fbcunn，包含了利用FFT等方法加速的卷积神经网络等。

地址

本文地址：http://blog.csdn.net/linj_m/article/details/44244051

更多资源请关注博客：LinJM-机器视觉微博：林建民-机器视觉

0 0