非线性回归

来源:互联网 发布:四川大学网络学费多少 编辑:程序博客网 时间:2024/05/21 09:52
1. 概率:

     1.1 定义   概率(P)robability: 对一件事情发生的可能性的衡量
     1.2 范围   0 <= P <= 1
     1.3 计算方法: 
          1.3.1 根据个人置信
          1.3.2 根据历史数据
          1.3.3 根据模拟数据
     1.4 条件概率:
                            
2. Logistic Regression (逻辑回归)

     2.1 例子
 2.2 基本模型
         测试数据为X(x0,x1,x2···xn)
         要学习的参数为: Θ(θ0,θ1,θ2,···θn)
          
     
          向量表示:
          
     

          
        处理二值数据,引入Sigmoid函数时曲线平滑化 
          
     

          

          预测函数:
                    

          用概率表示:
          正例(y=1):
                  
                         
          反例(y=0):
                              

       2.3  Cost函数
              线性回归:
                    
               
     
     
       
          
          
           
            找到合适的 θ0,θ1使上式最小

          Logistic regression:
               
           Cost函数:



           目标:找到合适的 θ0,θ1使上式最小
             
          2.4 解法:梯度下降(gradient decent)
    

          
                

  

              更新法则:
                
               

                      学习率
                      同时对所有的θ进行更新
                      重复更新直到收敛   


  

1.      皮尔逊相关系数 (Pearson Correlation Coefficient):
         1.1 衡量两个值线性相关强度的量
         1.2 取值范围 [-1, 1]: 
                    正向相关: >0, 负向相关:<0, 无相关性:=0

                    
         1.3
             
             
      
         
         

2. 计算方法举例:

     
XY110312824721934  
       

3. 其他例子:
       

  
4. R平方值:

     4.1定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例。

     4.2 描述:如R平方为0.8,则表示回归关系可以解释因变量80%的变异。换句话说,如果我们能控制自变量不变,则因变量的变异程度会减少80%

     4.3: 简单线性回归:R^2 = r * r
              多元线性回归:
                    
  

 



5. R平方也有其局限性:R平方随着自变量的增加会变大,R平方和样本量是有关系的。因此,我们要到R平方进行修正。修正的方法:
 


  





5. R平方也有其局限性:R平方随着自变量的增加会变大,R平方和样本量是有关系的。因此,我们要到R平方进行修正。修正的方法: