大型数据库的分析技巧-统计学基础
来源:互联网 发布:cad不能访问到网络锁 编辑:程序博客网 时间:2024/06/11 20:45
1.数据的性质
1.1数据分类
数据的值可以分为俩大类,一类是绝对的值(kategorisch像一些质量的概念),另一类是数值(像数字)
kategorisch又可以分为两类,其一为名词话的值(即不可排序的值,如颜色),其二为顺序值(即可存在顺序的值,如小<中<大);
numerisch也可分为俩类,即连续值和离散值.
1.2数据的维度
一维数据:(univariate data):如年龄
多维数据(multivariate data):如二维坐标系统上的点
高维数据(hochdimensionale Daten):暂时没亲眼见过 总之就是很多很多维的意思, 常见的像电子商务公司的数据
无维数据(Daten ohne Dimensionalitaet):不存在维度,像字符串(metrische Daten)
2.简单的描述统计学
2.1一种定量的方法:散播(streuung der Daten)
目标:更好的理解数据
特征标志:Streuung属性如:median,max, min, Quantile,Outlier,Varianz等
2.1.1聚合(Aggregate)
原理:结合同一属性的所有的值,形成一个新的可度量(skalar)的值
SQL中常见的Aggregate方法:
COUNT(),SUM(),MIN(),MAX(),AVG(); //部分DBMS允许用户自定义Aggregate方法
//并非所有Aggregate方法支持并行计算
Aggregate方法的分类: //F为Aggregate方法
distributiv:
存在方法G,满足下面的条件:F({Xij})=G({F({Xij|i=1,...I}|j=1,...,J});
比如:min(),max(),count();//对全体对象直接求最小与先分成两组分别求最小,再求出两值的最小值,其结果是一样的
algebraisch:
存在传递元组M的方法G,和方法H满足下面的条件:F({Xij})=H({G({F({Xij|i=1,...I})})}j=i,...J}); //M是提前知道的
比如:avg() //直接对全体对象就平均与分组后求平均都能得到平均值,但是当分组不均时,分组计算需要额外信息才能求出平均值,即每组的大小.
holistisch:
即不允许对其运行对象做任何限制的方法
如:Modus.(),median().
//distributive 和 algebraische Aggregate方法具有优势,因为他们支持并行.
自维护Aggregate方法:self-maintainable Aggregationsfunktionen
即修改数据后能够自动修正的Aggregate方法.
2.1.2其他
均值:=sum(X)/n X={xi|i=1,...n}
带权均值=sum(WX)/sum(W) W={wi|i=1,...n} X={xi|i=1,,,n}
//均值和带权均值皆为Algebraisch且仅适用与数值数据
区间中值:(max-min)/2 //仅适用与数值数据
Median:也是中值,就是排位在中间的值
//holistisch且仅适用于数值数据和排序数据(ordinale)
Modalwert/Modus:数据库中最常出现的数据,适用与kategorische数据
//当所有值都仅出现一次,那么Modus未定义,不支持连续数值数据
Quartile:四分为Q1表示前四分之一,Q3表示前四分之三
IQR(Inter-Quartile Tange)=Q3-Q1
Ausreisser:与Q1,Q3外部,离Q1,Q3距离都大于1,5*IQR的值
Varianz和Standarabwichung表示偏移值
Varianz V=sum((xi-a)(xi-a))/(n-1) //a为X的均值
Standardabweichung S=sqrt(V);
//此俩者属于Algebraisch
Boxplots:是有min,Q1,median,Q3,max五个值组成的数据图像表达方式
2.2Histogramme
统计每个数值出现的次数,根据这些数据把原始数据分成多个Buckets(分区),形成不同的Histogramme图形
Equi-Width Histogramme:分区大小相同
Equi-Depth Histogramme 分区大小不一,但每个区数值出现次数总和相同
Histogramme存在的问题:并不适用与高维数据,近似值的精确性还可以提高,keine Antwortverfeinerung //不是很理解 待处理
2.3Entropie
表示混乱程度,即熵值.=-sum(P*logP) p={pj|j=1,..n}
//以上为为统计学冰山之一小角,有兴趣的可以看一下李航的统计学方法 话说我也就看了这么一本
3.简单概率论
4.统计测试
5.数据压缩
- 大型数据库的分析技巧-统计学基础
- 大型数据库分析技巧-统计学基础2
- 大型数据库的分析技巧-前言
- 数据分析的统计学基础
- 数据分析的统计学基础--抽样估计
- 数据分析的统计学基础-假设检验
- 数据分析的统计学基础--方差分析
- 数据分析的统计学基础--相关及回归分析
- 数据分析的统计学基础--描述性统计
- 大型数据库的SQL查询优化技巧
- 数据分析中的统计学基础--数理统计基础
- 大型数据库分页技巧
- 数据分析概率及统计学基础
- 统计学基础
- 统计学基础
- 大型的数据库开发的非一般技巧
- 大型数据库的设计原则与开发技巧
- 大型数据库的设计原则与开发技巧
- 闭包
- Android Activity之间跳转总结
- UVA1220Party at Hali-Bula(树形dp)
- Filter过滤器,取不到值的问题!
- How can I make a redirect page using jQuery?
- 大型数据库的分析技巧-统计学基础
- 什么是Polymer?
- Longest Palindromic Substring O(N) solution
- HTTP协议超级详解
- activity大总结
- leetcode题目记录
- *LeetCode-Paint House
- 给那些认为Grunt奇怪又难懂的人看的Grunt教程
- LeetCode OJ 11 Container With Most Water