读书笔记数据科学入门————统计学

来源：互联网发布：木马盗号软件编辑：程序博客网时间：2024/06/06 16:29

本章摘要：

统计学是我们赖以理解数据的数学和技术。

数据集的描述：

凭借口碑与运气，融资部门的副总如果问你的成员有多少朋友的时候，来确定他潜在的演说对象。

当然很容易生成这个数据，但是如何描述这个数据集合呢？

对于数据集合，最简单的描述方法就是描述数据本身

num_friends = [100,49,41,40,25]

对于足够小的数据集，这甚至可以说是最好的描述方法。但随着数据规模变大，那么就很笨拙了。

如何进行提升呢？我们可以用统计来提炼和表达数据的相关特征。

friend_counter = Counter(num_friends)
>>> friend_counter
Counter({33: 1, 100: 1, 40: 1, 41: 1, 49: 1, 21: 1, 55: 1, 25: 1, 31: 1})

>>> plt.bar(xs,ys)
<Container object of 101 artists>
>>> plt.axis([0,101,0,25])
[0, 101, 0, 25]
>>> plt.xlabel('num of friends')
<matplotlib.text.Text object at 0x04D949D0>
>>> plt.ylabel('num of people')
<matplotlib.text.Text object at 0x04DAB990>
>>> plt.show()

可以获得关于朋友数量的直方图，但是很难进行交流那么需要提炼重要的统计量。

可能对最值感兴趣 max min，

也可能对特定位置的值感兴起，sorted_value = sorted(num_friends)

sorted_value[0] sorted_value[1],sorted_value[-2]

中心倾向

我们常常需要了解的是数据中心位置的一些概念，常用的方法就是用均值的方法进行计算

>>> def mean(x):
return sum(x)/len(x)

如果是两个数据点那么均值就以为这两个点的中间点。锁着数据集点数增加，均值就会移动。取决每个点的取值。

中位数就是数据中心的点值，或者中间两个点平均值

和均值不同的是中位数不依赖于每一个数据的值。例如最大的点进行变化，但是中间的数据点不会变化。中位数不会变化

def median(v):
n = len(v)
sorted_v = sorted(v)
midpoint = n/2
if n%2==1:
return sorted_v[midpoint]
else:
lo = midpoint-1
hi = midpoint
return (sorted_v[lo]+sorted_v[hi])/2

所以计算中位数首先需要对数据进行排序，中位数不一定随着数据变化。

均值对于数据中异常值非常敏感，而中位数不敏感，如果异常值属于不良数据，那么均值会误导我们。

中位数还有个泛化的概念是分位数，表示的是数据中特定百分比的一个值。中位数表示小于百分之50的数据一个值

def quantile(x,p):
p_index = int(p*len(x))
return sorted(x)[p_index]

quantile(num_friends,0.1)#1

quantile(num_friends,0.25)#3

还有个概念是众数是指出现次数最多的一个数

def mode(x):

counts = Counter(x)

max_count = max(counts.values())

return [x_i for x_i,count in counts.iteritems() if count==maxcount]

离散度

离散度是数据离散程度度量，如果值是0那么表示数据聚集一起。如果值很大表示离散度很大

最简单是极差最大和最小元素的差

def data_range(x):

return max(x) - min(x)

另外一个度量是方差

def d_mean(x):

x_bar = mean(x)

return [x_i - x_bar for x_i in x]

def variance(x):

n = len(x)

deviations = de_mean(x)

return sum_of_squares(deviataions)/(n-1)