深度学习中的数学—Lecture 1(1)
来源:互联网 发布:阿里云怎么打开端口 编辑:程序博客网 时间:2024/06/06 16:49
Introduction:A Non-Rigorous Review of Deep Learning
原文地址
本篇文章为 MIT 课程 Mathematical Aspects of Deep Learning 的lecture 1 的学习笔记,没有进行完整的翻译,仅供参考
1.深度前向网络(Deep forward networks )
在统计学中,数据以
其中,
我们的目标就是找到一个函数
而深度学习,总的来说就是 parametric statistics的子集。
我们有一个函数族
其中,
我们的目标是找到一个
在这里,
在这里,如果
受神经科学启发:神经细胞会接收多个输入信号,输出两种可能状态。一个最基本的模型设计感知机:
可以描述为
根据这个基本模型,我们可以定义
其中,
那么,
我们希望
或者选择对数函数(logistic function )
或 双曲正切(hyperbolic tangent)
这两个函数与 RELU 相比,优点在于有界性上。
上文中提到过,顶层(top layer)与其它层是不一样的。
顶层通常是scalar-valued
顶层有一些统计上的解释,
h(d−1)1,…,h(d−1)n 被认为是经典统计模型的参数。
顶层的g 要根据这个统计含义来选择。一个例子是线性函数
输出是一个高斯均值。y=WTh+b 另一个例子是函数
σ(wT+b) , 其中σ 是 sigmoid 函数这里认为输出符合伯努利分布,概率x←11+ex P(y) 正比于exp(yz) ,其中z=wT+b - 进一步的,给出 soft-max
softmax(z)i=exp(zi)∑jexp(zj)
其中,z=WTh+b 。这里,z 的组分 就与输出的可能取值相互对应了起来,softmax(z)i 对应的就是取值value 为i 的概率(z 是一个向量,softmax输出为标量,是对矢量z 的每个维度值zi 求了normalized exponential )
Simple example1
> Input : [1, 2, 3, 4, 1, 2, 3], > Output: [0.024, 0.064, 0.175, 0.475, 0.024, 0.064, 0.175]. >The output has most of its weight where the '4' was in the original input. >The function highlight the largest values and suppress values which are significantly below the maximum value.
例如:向一个网络输入一副图片,输出的
就对应的是这幅图片中是一只猫、狗或青蛙的概率(softmax(z)1,softmax(z)2,softmax(z)3)
在后续几周,我们将关注这些问题:
- 这些函数是怎样近似一般函数的?
- 深度和宽度有怎样的表达能力(expressive power)
- Wikipedia softmax Softmax_function ↩
阅读全文
1 0
- 深度学习中的数学--lecture 1(2)
- 深度学习中的数学—Lecture 1(1)
- 深度学习与自然语言处理Lecture-1笔记
- Tensorflow学习Lecture 1
- [深度学习与计算机视觉] 斯坦福 CS231n 2017 学习笔记 -1 (Lecture 1: Introduction;课程介绍)
- Lecture 1:机器学习初识
- 深度学习与自然语言处理(1)_斯坦福cs224d Lecture 1
- 深度学习与自然语言处理(1)_斯坦福cs224d Lecture 1
- 深度学习与自然语言处理(1)_斯坦福cs224d Lecture 1 note1
- [note] deep learning tensorflow lecture 1 notes 深度学习笔记 (1)
- 深度学习与自然语言处理(1)_斯坦福cs224d Lecture 1
- 深度学习与自然语言处理(1)_斯坦福cs224d Lecture 1
- 《神经网络与深度学习》讲义1—数学基础
- 深度学习之数学基础(1)
- Lecture 1
- Lecture 1
- Lecture 1
- Lecture 1: The Learning Problem(学习问题)
- pyspider 操作
- Android适配语言
- prototype属性简介
- 文章标题
- c#使用vr box 手柄开发
- 深度学习中的数学—Lecture 1(1)
- linux 输出重定向,管道,cut,grep,wc,sort
- solr三种解析器的通用参数
- RANSAC算法详解
- soj.1150 简单魔块
- 【java】Java常考面试题(学习笔记)
- tf.concat
- MySQL 处理海量数据时的SQL语句调优
- 产生基于IEC62055-41协议的Token