机器学习&深度学习资料汇总（含文档，数据集，代码等）(三)

来源：互联网发布：sql 取前三大的值编辑：程序博客网时间：2024/06/14 15:34

机器学习&深度学习资料汇总（含文档，数据集，代码等）(一)

机器学习&深度学习资料汇总（含文档，数据集，代码等）(二)

《MLMU.cz - Radim Řehůřek - Word2vec & friends (7.1.2015)》

介绍: Radim Řehůřek(Gensim开发者)在一次机器学习聚会上的报告，关于word2vec及其优化、应用和扩展，很实用.国内网盘

《Introducing streaming k-means in Spark 1.2》

介绍:很多公司都用机器学习来解决问题，提高用户体验。那么怎么可以让机器学习更实时和有效呢？Spark MLlib 1.2里面的Streaming K-means，由斑马鱼脑神经研究的Jeremy Freeman脑神经科学家编写，最初是为了实时处理他们每半小时1TB的研究数据，现在发布给大家用了。

《LDA入门与Java实现》

介绍: 这是一篇面向工程师的LDA入门笔记，并且提供一份开箱即用Java实现。本文只记录基本概念与原理，并不涉及公式推导。文中的LDA实现核心部分采用了arbylon的LdaGibbsSampler并力所能及地注解了，在搜狗分类语料库上测试良好，开源在GitHub上。

《AMiner - Open Science Platform》

介绍: AMiner是一个学术搜索引擎，从学术网络中挖掘深度知识、面向科技大数据的挖掘。收集近4000万作者信息、8000万论文信息、1亿多引用关系、链接近8百万知识点；支持专家搜索、机构排名、科研成果评价、会议排名。

《What are some interesting Word2Vec results?》

介绍: Quora上的主题，讨论Word2Vec的有趣应用，Omer Levy提到了他在CoNLL2014最佳论文里的分析结果和新方法，Daniel Hammack给出了找特异词的小应用并提供了(Python)代码

《机器学习公开课汇总》

介绍: 机器学习公开课汇总,虽然里面的有些课程已经归档过了，但是还有个别的信息没有。感谢课程图谱的小编。

《A First Course in Linear Algebra》

介绍: 【A First Course in Linear Algebra】Robert Beezer 有答案有移动版、打印版使用GNU自由文档协议引用了杰弗逊1813年的信。

《libfacedetection》

介绍:libfacedetection是深圳大学开源的一个人脸图像识别库。包含正面和多视角人脸检测两个算法.优点:速度快(OpenCV haar+adaboost的2-3倍), 准确度高 (FDDB非公开类评测排名第二），能估计人脸角度。

《Inverting a Steady-State》

介绍:WSDM2015最佳论文把马尔可夫链理论用在了图分析上面，比一般的propagation model更加深刻一些。通过全局的平稳分布去求解每个节点影响系数模型。假设合理（转移受到相邻的影响系数影响）。可以用来反求每个节点的影响系数

《机器学习入门书单》

介绍:机器学习入门书籍，具体介绍

《The Trouble with SVMs》

介绍: 非常棒的强调特征选择对分类器重要性的文章。情感分类中，根据互信息对复杂高维特征降维再使用朴素贝叶斯分类器，取得了比SVM更理想的效果，训练和分类时间也大大降低——更重要的是，不必花大量时间在学习和优化SVM上——特征也一样no free lunch

《Rise of the Machines》

介绍:CMU的统计系和计算机系知名教授Larry Wasserman 在《机器崛起》,对比了统计和机器学习的差异

《实例详解机器学习如何解决问题》

介绍:随着大数据时代的到来，机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界，机器学习都是一个炙手可热的方向，但是学术界和工业界对机器学习的研究各有侧重，学术界侧重于对机器学习理论的研究，工业界侧重于如何用机器学习来解决实际问题。这篇文章是美团的实际环境中的实战篇

《Gaussian Processes for Machine Learning》

介绍:面向机器学习的高斯过程，章节概要：回归、分类、协方差函数、模型选择与超参优化、高斯模型与其他模型关系、大数据集的逼近方法等,微盘下载

《FuzzyWuzzy: Fuzzy String Matching in Python》

介绍:Python下的文本模糊匹配库，老库新推，可计算串间ratio(简单相似系数)、partial_ratio(局部相似系数)、token_sort_ratio(词排序相似系数)、token_set_ratio(词集合相似系数)等 github

《Blocks》

介绍:Blocks是基于Theano的神经网络搭建框架，集成相关函数、管道和算法，帮你更快地创建和管理NN模块.

《Introduction to Machine Learning》

介绍:机器学习大神Alex Smola在CMU新一期的机器学习入门课程”Introduction to Machine Learning“近期刚刚开课，课程4K高清视频同步到Youtube上，目前刚刚更新到 2.4 Exponential Families,课程视频playlist, 感兴趣的同学可以关注，非常适合入门.

《Collaborative Feature Learning from Social Media》

介绍:用社交用户行为学习图片的协同特征，可更好地表达图片内容相似性。由于不依赖于人工标签(标注)，可用于大规模图片处理，难在用户行为数据的获取和清洗；利用社会化特征的思路值得借鉴.

《Introducing practical and robust anomaly detection in a time series》

介绍:Twitter技术团队对前段时间开源的时间序列异常检测算法(S-H-ESD)R包的介绍，其中对异常的定义和分析很值得参考，文中也提到——异常是强针对性的，某个领域开发的异常检测在其他领域直接用可不行.

《Empower Your Team to Deal with Data-Quality Issues》

介绍:聚焦数据质量问题的应对，数据质量对各种规模企业的性能和效率都至关重要，文中总结出(不限于)22种典型数据质量问题显现的信号，以及典型的数据质量解决方案(清洗、去重、统一、匹配、权限清理等)

《中文分词入门之资源》

介绍:中文分词入门之资源.

《Deep Learning Summit, San Francisco, 2015》

介绍:15年旧金山深度学习峰会视频集萃,国内云盘

《Introduction to Conditional Random Fields》

介绍:很好的条件随机场(CRF)介绍文章,作者的学习笔记

《A Fast and Accurate Dependency Parser using Neural Networks》

介绍: 来自Stanford，用神经网络实现快速准确的依存关系解析器

《Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning》

介绍:做深度学习如何选择GPU的建议

《Sparse Linear Models》

介绍: Stanford的Trevor Hastie教授在H2O.ai Meet-Up上的报告，讲稀疏线性模型——面向“宽数据”(特征维数超过样本数)的线性模型,13年同主题报告、讲义.

《Awesome Computer Vision》

介绍: 分类整理的机器视觉相关资源列表，秉承Awesome系列风格，有质有量!作者的更新频率也很频繁。

《Adam Szeidl》

介绍: social networks course

《Building and deploying large-scale machine learning pipelines》

介绍: 大规模机器学习流程的构建与部署.

《人脸识别开发包》

介绍: 人脸识别二次开发包，免费，可商用，有演示、范例、说明书.

《Understanding Natural Language with Deep Neural Networks Using Torch》

介绍: 采用Torch用深度学习网络理解NLP，来自Facebook 人工智能的文章.

《The NLP Engine: A Universal Turing Machine for NLP》

介绍: 来自CMU的Ed Hovy和Stanford的Jiwei Li一篇有意思的Arxiv文章,作者用Shannon Entropy来刻画NLP中各项任务的难度.

《TThe Probabilistic Relevance Framework: BM25 and Beyond》

介绍: 信息检索排序模型BM25(Besting Matching)。1）从经典概率模型演变而来 2）捕捉了向量空间模型中三个影响索引项权重的因子：IDF逆文档频率；TF索引项频率；文档长度归一化。3）并且含有集成学习的思想：组合了BM11和BM15两个模型。4）作者是BM25的提出者和Okapi实现者Robertson.

《Introduction to ARMA Time Series Models – simplified》

介绍: 自回归滑动平均(ARMA)时间序列的简单介绍，ARMA是研究时间序列的重要方法，由自回归模型（AR模型）与滑动平均模型（MA模型）为基础“混合”构成.

《Encoding Source Language with Convolutional Neural Network for Machine Translation》

介绍: 把来自target的attention signal加入source encoding CNN的输入，得到了比BBN的模型好的多neural network joint model

《Spices form the basis of food pairing in Indian cuisine》

介绍: 揭开印度菜的美味秘诀——通过对大量食谱原料关系的挖掘，发现印度菜美味的原因之一是其中的味道互相冲突，很有趣的文本挖掘研究

《HMM相关文章索引》

介绍: HMM相关文章,此外推荐中文分词之HMM模型详解

《Zipf's and Heap's law》

介绍: 1)词频与其降序排序的关系,最著名的是语言学家齐夫(Zipf,1902-1950)1949年提出的Zipf‘s law,即二者成反比关系. 曼德勃罗(Mandelbrot,1924- 2010)引入参数修正了对甚高频和甚低频词的刻画 2)Heaps' law: 词汇表与语料规模的平方根(这是一个参数,英语0.4-0.6)成正比

《I am Jürgen Schmidhuber, AMA》

介绍: Jürgen Schmidhuber在Reddit上的AMA(Ask Me Anything)主题，有不少RNN和AI、ML的干货内容，关于开源&思想&方法&建议……耐心阅读，相信你也会受益匪浅.

《学术种子网站：AcademicTorrents》

介绍: 成G上T的学术数据，HN近期热议话题,主题涉及机器学习、NLP、SNA等。下载最简单的方法，通过BT软件，RSS订阅各集合即可

《机器学习交互速查表》

介绍: Scikit-Learn官网提供，在原有的Cheat Sheet基础上加上了Scikit-Learn相关文档的链接，方便浏览

《A Full Hardware Guide to Deep Learning》

介绍: 深度学习的全面硬件指南，从GPU到RAM、CPU、SSD、PCIe

《行人检测(Pedestrian Detection)资源》

介绍:Pedestrian Detection paper & data

《A specialized face-processing network consistent with the representational geometry of monkey face patches》

介绍: 【神经科学碰撞人工智能】在脸部识别上你我都是专家，即使细微的差别也能辨认。研究已证明人类和灵长类动物在面部加工上不同于其他物种，人类使用梭状回面孔区（FFA）。Khaligh-Razavi等通过计算机模拟出人脸识别的FFA活动，堪称神经科学与人工智能的完美结合。

《Neural Net in C++ Tutorial》

介绍: 神经网络C++教程,本文介绍了用可调节梯度下降和可调节动量法设计和编码经典BP神经网络，网络经过训练可以做出惊人和美妙的东西出来。此外作者博客的其他文章也很不错。

《How to Choose a Neural Network》

介绍:deeplearning4j官网提供的实际应用场景NN选择参考表，列举了一些典型问题建议使用的神经网络。

《Deep Learning (Python, C/C++, Java, Scala, Go)》

介绍:一个深度学习项目,提供了Python, C/C++, Java, Scala, Go多个版本的代码

《Deep Learning Tutorials》

介绍:深度学习教程,github

《自然语言处理的发展趋势——访卡内基梅隆大学爱德华·霍威教授》

介绍:自然语言处理的发展趋势——访卡内基梅隆大学爱德华·霍威教授.

《FaceNet: A Unified Embedding for Face Recognition and Clustering》

介绍:Google对Facebook DeepFace的有力回击—— FaceNet，在LFW(Labeled Faces in the Wild)上达到99.63%准确率(新纪录)，FaceNet embeddings可用于人脸识别、鉴别和聚类.

《MLlib中的Random Forests和Boosting》

介绍:本文来自Databricks公司网站的一篇博客文章，由Joseph Bradley和Manish Amde撰写，文章主要介绍了Random Forests和Gradient-Boosted Trees（GBTs）算法和他们在MLlib中的分布式实现，以及展示一些简单的例子并建议该从何处上手.中文版.

《Sum-Product Networks(SPN) 》

介绍:华盛顿大学Pedro Domingos团队的DNN，提供论文和实现代码.

《Neural Network Dependency Parser》

介绍:基于神经网络的自然语言依存关系解析器(已集成至Stanford CoreNLP)，特点是超快、准确，目前可处理中英文语料，基于《A Fast and Accurate Dependency Parser Using Neural Networks》思路实现.

《神经网络语言模型》

介绍:本文根据神经网络的发展历程，详细讲解神经网络语言模型在各个阶段的形式，其中的模型包含NNLM[Bengio,2003]、Hierarchical NNLM[Bengio, 2005], Log-Bilinear[Hinton, 2007],SENNA等重要变形，总结的特别好.

《Classifying Spam Emails using Text and Readability Features》

介绍:经典问题的新研究：利用文本和可读性特征分类垃圾邮件。

《BCI Challenge @ NER 2015》

介绍:Kaggle脑控计算机交互(BCI)竞赛优胜方案源码及文档，包括完整的数据处理流程，是学习Python数据处理和Kaggle经典参赛框架的绝佳实例

《IPOL Journal · Image Processing On Line》

介绍:IPOL（在线图像处理）是图像处理和图像分析的研究期刊，每篇文章都包含一个算法及相应的代码、Demo和实验文档。文本和源码是经过了同行评审的。IPOL是开放的科学和可重复的研究期刊。我一直想做点类似的工作，拉近产品和技术之间的距离.

《Machine learning classification over encrypted data》

介绍:出自MIT，研究加密数据高效分类问题.

《purine2》

介绍:新加坡LV实验室的神经网络并行框架Purine: A bi-graph based deep learning framework,支持构建各种并行的架构，在多机多卡，同步更新参数的情况下基本达到线性加速。12块Titan 20小时可以完成Googlenet的训练。

《Machine Learning Resources》

介绍:这是一个机器学习资源库,虽然比较少.但蚊子再小也是肉.有突出部分.此外还有一个由zheng Rui整理的机器学习资源.

《Hands-on with machine learning》

介绍:Chase Davis在NICAR15上的主题报告材料，用Scikit-Learn做监督学习的入门例子.

《The Natural Language Processing Dictionary》

介绍:这是一本自然语言处理的词典,从1998年开始到目前积累了成千上万的专业词语解释,如果你是一位刚入门的朋友.可以借这本词典让自己成长更快.

《PageRank Approach to Ranking National Football Teams》

介绍:通过分析1930年至今的比赛数据，用PageRank计算世界杯参赛球队排行榜.

《R Tutorial》

介绍:R语言教程,此外还推荐一个R语言教程An Introduction to R.

《Fast unfolding of communities in large networks》

介绍:经典老文，复杂网络社区发现的高效算法，Gephi中的[Community detection](The Louvain method for community detection in large networks)即基于此.

《NUML》

介绍: 一个面向 .net 的开源机器学习库,github地址

《synaptic.Js》

介绍: 支持node.js的JS神经网络库，可在客户端浏览器中运行，支持LSTM等 github地址

《Machine learning for package users with R (1): Decision Tree》

介绍: 决策树

《Deep Learning, The Curse of Dimensionality, and Autoencoders》

介绍: 讨论深度学习自动编码器如何有效应对维数灾难,国内翻译

《Advanced Optimization and Randomized Methods》

介绍: CMU的优化与随机方法课程，由A. Smola和S. Sra主讲，优化理论是机器学习的基石，值得深入学习国内云(视频)

《CS231n: Convolutional Neural Networks for Visual Recognition》

介绍: "面向视觉识别的CNN"课程设计报告集锦.近百篇，内容涉及图像识别应用的各个方面

《Topic modeling with LDA: MLlib meets GraphX》

介绍:用Spark的MLlib+GraphX做大规模LDA主题抽取.

《Deep Learning for Multi-label Classification》

介绍: 基于深度学习的多标签分类,用基于RBM的DBN解决多标签分类(特征)问题

《Google DeepMind publications》

介绍: DeepMind论文集锦

《kaldi》

介绍: 一个开源语音识别工具包,它目前托管在sourceforge上面

《Data Journalism Handbook》

介绍: 免费电子书《数据新闻手册》, 国内有热心的朋友翻译了中文版,大家也可以在线阅读

《Data Mining Problems in Retail》

介绍: 零售领域的数据挖掘文章.

《Understanding Convolution in Deep Learning》

介绍: 深度学习卷积概念详解,深入浅出.

《pandas: powerful Python data analysis toolkit》

介绍: 非常强大的Python的数据分析工具包.

《Text Analytics 2015》

介绍: 2015文本分析(商业)应用综述.

《Deep Learning libraries and ﬁrst experiments with Theano》

介绍: 深度学习框架、库调研及Theano的初步测试体会报告.

《DEEP learning》

介绍: MIT的Yoshua Bengio, Ian Goodfellow, Aaron Courville著等人讲深度学习的新书，还未定稿，线上提供Draft chapters收集反馈，超赞！强烈推荐.

《simplebayes》

介绍: Python下开源可持久化朴素贝叶斯分类库.

《Paracel》

介绍:Paracel is a distributed computational framework designed for machine learning problems, graph algorithms and scientific computing in C++.

《HanLP:Han Language processing》

介绍: 开源汉语言处理包.

《Simple Neural Network implementation in Ruby》

介绍: 使用Ruby实现简单的神经网络例子.

《Hacker's guide to Neural Networks》

介绍:神经网络黑客入门.

《The Open-Source Data Science Masters》

介绍:好多数据科学家名人推荐,还有资料.

《Text Understanding from Scratch》

介绍:实现项目已经开源在github上面Crepe

《 Improving Distributional Similarity with Lessons Learned from Word Embeddings》

介绍:作者发现，经过调参，传统的方法也能和word2vec取得差不多的效果。另外，无论作者怎么试，GloVe都比不过word2vec.

《CS224d: Deep Learning for Natural Language Processing》

介绍:Stanford深度学习与自然语言处理课程,Richard Socher主讲.

《Math Essentials in Machine Learning》

介绍:机器学习中的重要数学概念.

《Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks》

介绍:用于改进语义表示的树型LSTM递归神经网络,句子级相关性判断和情感分类效果很好.实现代码.

《Statistical Machine Learning》

介绍:卡耐基梅隆Ryan Tibshirani和Larry Wasserman开设的机器学习课程，先修课程为机器学习(10-715)和中级统计学(36-705)，聚焦统计理论和方法在机器学习领域应用.

《AM207: Monte Carlo Methods, Stochastic Optimization》

介绍:《哈佛大学蒙特卡洛方法与随机优化课程》是哈佛应用数学研究生课程，由V Kaynig-Fittkau、P Protopapas主讲，Python程序示例，对贝叶斯推理感兴趣的朋友一定要看看，提供授课视频及课上IPN讲义.

《生物医学的SPARK大数据应用》

介绍:生物医学的SPARK大数据应用.并且伯克利开源了他们的big data genomics系统ADAM，其他的内容可以关注一下官方主页.

《ACL Anthology》

介绍:对自然语言处理技术或者机器翻译技术感兴趣的亲们，请在提出自己牛逼到无以伦比的idea（自动归纳翻译规律、自动理解语境、自动识别语义等等）之前，请通过谷歌学术简单搜一下，如果谷歌不可用，这个网址有这个领域几大顶会的论文列表,切不可断章取义,胡乱假设.

《Twitter Sentiment Detection via Ensemble Classification Using Averaged Confidence Scores》

介绍:论文+代码:基于集成方法的Twitter情感分类,实现代码.

《NIPS 2014 CIML workshop》

介绍:NIPS CiML 2014的PPT,NIPS是神经信息处理系统进展大会的英文简称.

《CS231n: Convolutional Neural Networks for Visual Recognition》

介绍:斯坦福的深度学习课程的Projects 每个人都要写一个论文级别的报告里面有一些很有意思的应用大家可以看看 .

《A Speed Comparison Between Flexible Linear Regression Alternatives in R》

介绍:R语言线性回归多方案速度比较具体方案包括lm()、nls()、glm()、bayesglm()、nls()、mle2()、optim()和Stan’s optimizing()等.

《Back-to-Basics Weekend Reading - Machine Learning》

介绍:文中提到的三篇论文（机器学习那些事、无监督聚类综述、监督分类综述）都很经典，Domnigos的机器学习课也很精彩

《A Probabilistic Theory of Deep Learning》

介绍:莱斯大学（Rice University）的深度学习的概率理论.

《Nonsensical beer reviews via Markov chains》

介绍:基于马尔可夫链自动生成啤酒评论的开源Twitter机器人,github地址.

《Deep Learning for Natural Language Processing (without Magic)》

介绍:视频+讲义:深度学习用于自然语言处理教程(NAACL13).

《Introduction to Data Analysis using Machine Learning》

介绍:用机器学习做数据分析,David Taylor最近在McGill University研讨会上的报告，还提供了一系列讲机器学习方法的ipn，很有价值 GitHub.国内

《Beyond Short Snippets: Deep Networks for Video Classification》

介绍:基于CNN+LSTM的视频分类,google演示.

《How does Quora use machine learning in 2015?》

介绍:Quora怎么用机器学习.

《Amazon Machine Learning – Make Data-Driven Decisions at Scale》

介绍:亚马逊在机器学习上面的一些应用,代码示例.

《Parallel Machine Learning with scikit-learn and IPython》

介绍:并行机器学习指南(基于scikit-learn和IPython).notebook

《Intro to machine learning with scikit-learn》

介绍:DataSchool的机器学习基本概念教学.

《DeepCLn》

介绍:一个基于OpenGL实现的卷积神经网络，支持Linux及Windows系统.

《An Inside Look at the Components of a Recommendation Engine》

介绍:基于Mahout和Elasticsearch的推荐系统.

《Forecasting in Economics, Business, Finance and Beyond》

介绍:Francis X. Diebold的《(经济|商业|金融等领域)预测方法.

《Time Series Econometrics - A Concise Course》

介绍:Francis X. Diebold的《时序计量经济学》.

《A comparison of open source tools for sentiment analysis》

介绍:基于Yelp数据集的开源情感分析工具比较,评测覆盖Naive Bayes、SentiWordNet、CoreNLP等 .

《Pattern Recognition And Machine Learning》

介绍:国内Pattern Recognition And Machine Learning读书会资源汇总,各章pdf讲稿,博客.

《Probabilistic Data Structures for Web Analytics and Data Mining 》

介绍:用于Web分析和数据挖掘的概率数据结构.

《Machine learning in navigation devices: detect maneuvers using accelerometer and gyroscope》

介绍:机器学习在导航上面的应用.

《Neural Networks Demystified 》

介绍:Neural Networks Demystified系列视频，Stephen Welch制作，纯手绘风格，浅显易懂,国内云.

《swirl + DataCamp 》

介绍:{swirl}数据训练营:R&数据科学在线交互教程.

《Learning to Read with Recurrent Neural Networks 》

介绍:关于深度学习和RNN的讨论 Sequence to Sequence Learning with Neural Networks.

《深度强化学习（Deep Reinforcement Learning）的资源》

介绍:Deep Reinforcement Learning.

《Machine Learning with Scikit-Learn》

介绍:(PyCon2015)Scikit-Learn机器学习教程,Parallel Machine Learning with scikit-learn and IPython.

《PDNN》

介绍:PDNN: A Python Toolkit for Deep Learning.

《Introduction to Machine Learning》

介绍:15年春季学期CMU的机器学习课程，由Alex Smola主讲，提供讲义及授课视频，很不错.国内镜像.

《Big Data Processing》

介绍:大数据处理课.内容覆盖流处理、MapReduce、图算法等.

《Spark MLlib: Making Practical Machine Learning Easy and Scalable》

介绍:用Spark MLlib实现易用可扩展的机器学习,国内镜像.

《Picture: A Probabilistic Programming Language for Scene Perception》

介绍:以往上千行代码概率编程(语言)实现只需50行.

《Beautiful plotting in R: A ggplot2 cheatsheet》

介绍:ggplot2速查小册子,另外一个,此外还推荐《A new data processing workflow for R: dplyr, magrittr, tidyr, ggplot2》.

《Using Structured Events to Predict Stock Price Movement: An Empirical Investigation》

介绍:用结构化模型来预测实时股票行情.

《International Joint Conference on Artificial Intelligence Accepted paper》

介绍:国际人工智能联合会议录取论文列表,大部分论文可使用Google找到.

《Why GEMM is at the heart of deep learning》

介绍:一般矩阵乘法(GEMM)对深度学习的重要性.

《Distributed (Deep) Machine Learning Common》

介绍:A Community of awesome Distributed Machine Learning C++ projects.

《Reinforcement Learning: An Introduction》

介绍:免费电子书<强化学习介绍>,第一版(1998),第二版(2015草稿),相关课程资料,Reinforcement Learning.

《Free ebook: Microsoft Azure Essentials: Azure Machine Learning》

介绍:免费书:Azure ML使用精要.

《A Deep Learning Tutorial: From Perceptrons to Deep Networks》

介绍:A Deep Learning Tutorial: From Perceptrons to Deep Networks.

《Machine Learning is Fun! - The world’s easiest introduction to Machine Learning》

介绍:有趣的机器学习：最简明入门指南,中文版.

《A Brief Overview of Deep Learning》

介绍:深度学习简明介绍,中文版.

《Wormhole》

介绍:Portable, scalable and reliable distributed machine learning.

《convnet-benchmarks》

介绍:CNN开源实现横向评测,参评框架包括Caffe 、Torch-7、CuDNN 、cudaconvnet2 、fbfft、Nervana Systems等，NervanaSys表现突出.

《This catalogue lists resources developed by faculty and students of the Language Technologies Institute.》

介绍:卡耐基梅隆大学计算机学院语言技术系的资源大全,包括大量的NLP开源软件工具包，基础数据集，论文集，数据挖掘教程，机器学习资源.

《Sentiment Analysis on Twitter》

介绍:Twitter情感分析工具SentiTweet,视频+讲义.

《Machine Learning Repository @ Wash U》

介绍:华盛顿大学的Machine Learning Paper Repository.

《Machine learning cheat sheet》

介绍:机器学习速查表.

《Spark summit east 2015 agenda》

介绍:最新的Spark summit会议资料.

《Spark summit east 2015 agenda》

介绍:最新的Spark summit会议资料.

《Learning Spark》

介绍:Ebook Learning Spark.

《Advanced Analytics with Spark, Early Release Edition》

介绍:Ebook Advanced Analytics with Spark, Early Release Edition.

《国内机器学习算法及应用领域人物篇:唐杰》

介绍:清华大学副教授，是图挖掘方面的专家。他主持设计和实现的Arnetminer是国内领先的图挖掘系统，该系统也是多个会议的支持商.

《国内机器学习算法及应用领域人物篇:杨强》

介绍:迁移学习的国际领军人物.

《国内机器学习算法及应用领域人物篇:周志华》

介绍:在半监督学习，multi-label学习和集成学习方面在国际上有一定的影响力.

《国内机器学习算法及应用领域人物篇:王海峰》

介绍:信息检索，自然语言处理，机器翻译方面的专家.

《国内机器学习算法及应用领域人物篇:吴军》

介绍:吴军博士是当前Google中日韩文搜索算法的主要设计者。在Google其间，他领导了许多研发项目，包括许多与中文相关的产品和自然语言处理的项目,他的新个人主页.

《Cat Paper Collection》

介绍:喵星人相关论文集.

《How to Evaluate Machine Learning Models, Part 1: Orientation》

介绍:如何评价机器学习模型系列文章,How to Evaluate Machine Learning Models, Part 2a: Classification Metrics,How to Evaluate Machine Learning Models, Part 2b: Ranking and Regression Metrics.

《Building a new trends experience》

介绍:Twitter新trends的基本实现框架.

《Storm Blueprints: Patterns for Distributed Real-time Computation》

介绍:Storm手册，国内有中文翻译版本,谢谢作者.

《SmileMiner》

介绍:Java机器学习算法库SmileMiner.

《机器翻译学术论文写作方法和技巧》

介绍:机器翻译学术论文写作方法和技巧，Simon Peyton Jones的How to write a good research paper同类视频How to Write a Great Research Paper,how to paper talk.

《神经网络训练中的Tricks之高效BP（反向传播算法）》

介绍:神经网络训练中的Tricks之高效BP,博主的其他博客也挺精彩的.

《我和NLP的故事》

介绍:作者是NLP方向的硕士，短短几年内研究成果颇丰,推荐新入门的朋友阅读.

《The h Index for Computer Science 》

介绍:UCLA的Jens Palsberg根据Google Scholar建立了一个计算机领域的H-index牛人列表,我们熟悉的各个领域的大牛绝大多数都在榜上，包括1位诺贝尔奖得主，35位图灵奖得主，近百位美国工程院/科学院院士，300多位ACM Fellow,在这里推荐的原因是大家可以在google通过搜索牛人的名字来获取更多的资源,这份资料很宝贵.

《Structured Learning for Taxonomy Induction with Belief Propagation》

介绍:用大型语料库学习概念的层次关系，如鸟是鹦鹉的上级，鹦鹉是虎皮鹦鹉的上级。创新性在于模型构造，用因子图刻画概念之间依存关系，因引入兄弟关系，图有环，所以用有环扩散（loopy propagation）迭代计算边际概率（marginal probability）.

《Bayesian analysis》

介绍: 这是一款贝叶斯分析的商业软件,官方写的贝叶斯分析的手册有250多页,虽然R语言已经有类似的项目,但毕竟可以增加一个可选项.

0 0