大型数据库的分析技巧-统计学基础

来源:互联网 发布:cad不能访问到网络锁 编辑:程序博客网 时间:2024/06/11 20:45

1.数据的性质

1.1数据分类

数据的值可以分为俩大类,一类是绝对的值(kategorisch像一些质量的概念),另一类是数值(像数字)

kategorisch又可以分为两类,其一为名词话的值(即不可排序的值,如颜色),其二为顺序值(即可存在顺序的值,如小<中<大);

numerisch也可分为俩类,即连续值和离散值.

1.2数据的维度

一维数据:(univariate data):如年龄

多维数据(multivariate data):如二维坐标系统上的点

高维数据(hochdimensionale Daten):暂时没亲眼见过 总之就是很多很多维的意思, 常见的像电子商务公司的数据

无维数据(Daten ohne Dimensionalitaet):不存在维度,像字符串(metrische Daten)

2.简单的描述统计学

2.1一种定量的方法:散播(streuung der Daten)

目标:更好的理解数据

特征标志:Streuung属性如:median,max, min, Quantile,Outlier,Varianz等

2.1.1聚合(Aggregate)

原理:结合同一属性的所有的值,形成一个新的可度量(skalar)的值

SQL中常见的Aggregate方法:

COUNT(),SUM(),MIN(),MAX(),AVG(); //部分DBMS允许用户自定义Aggregate方法

 //并非所有Aggregate方法支持并行计算

Aggregate方法的分类: //F为Aggregate方法

distributiv:

存在方法G,满足下面的条件:F({Xij})=G({F({Xij|i=1,...I}|j=1,...,J});

比如:min(),max(),count();//对全体对象直接求最小与先分成两组分别求最小,再求出两值的最小值,其结果是一样的

algebraisch:

存在传递元组M的方法G,和方法H满足下面的条件:F({Xij})=H({G({F({Xij|i=1,...I})})}j=i,...J}); //M是提前知道的

比如:avg() //直接对全体对象就平均与分组后求平均都能得到平均值,但是当分组不均时,分组计算需要额外信息才能求出平均值,即每组的大小.

holistisch:

即不允许对其运行对象做任何限制的方法

如:Modus.(),median().

//distributive 和 algebraische Aggregate方法具有优势,因为他们支持并行.

自维护Aggregate方法:self-maintainable Aggregationsfunktionen

即修改数据后能够自动修正的Aggregate方法.

2.1.2其他

均值:=sum(X)/n    X={xi|i=1,...n}

带权均值=sum(WX)/sum(W)   W={wi|i=1,...n} X={xi|i=1,,,n}

//均值和带权均值皆为Algebraisch且仅适用与数值数据

区间中值:(max-min)/2  //仅适用与数值数据

Median:也是中值,就是排位在中间的值

    //holistisch且仅适用于数值数据和排序数据(ordinale)

Modalwert/Modus:数据库中最常出现的数据,适用与kategorische数据

    //当所有值都仅出现一次,那么Modus未定义,不支持连续数值数据

Quartile:四分为Q1表示前四分之一,Q3表示前四分之三

IQR(Inter-Quartile Tange)=Q3-Q1

Ausreisser:与Q1,Q3外部,离Q1,Q3距离都大于1,5*IQR的值

VarianzStandarabwichung表示偏移值

    Varianz V=sum((xi-a)(xi-a))/(n-1)   //a为X的均值

    Standardabweichung S=sqrt(V);

    //此俩者属于Algebraisch

Boxplots:是有min,Q1,median,Q3,max五个值组成的数据图像表达方式

2.2Histogramme

统计每个数值出现的次数,根据这些数据把原始数据分成多个Buckets(分区),形成不同的Histogramme图形

    Equi-Width Histogramme:分区大小相同

    Equi-Depth Histogramme 分区大小不一,但每个区数值出现次数总和相同

    Histogramme存在的问题:并不适用与高维数据,近似值的精确性还可以提高,keine Antwortverfeinerung  //不是很理解 待处理

2.3Entropie

表示混乱程度,即熵值.=-sum(P*logP)  p={pj|j=1,..n}

//以上为为统计学冰山之一小角,有兴趣的可以看一下李航的统计学方法 话说我也就看了这么一本

3.简单概率论

4.统计测试

5.数据压缩

0 0