用正态分布(高斯函数)为邻居分配权重

来源:互联网 发布:xtrafinder mac 10.12 编辑:程序博客网 时间:2024/04/29 03:19

在计算完最近邻居之后,在进行推荐的时候,需要对最近邻居进行权重赋值,一避免选择了距离比较远的邻居。

   如果采取邻居的倒数,如果距离是0的话,则权重就会无限大,对程序造成干扰。这时候,根据正态函数的“钟形函数”的特性,可以解决这个问题、

正态函数的公式如下

image

函数曲线如下:

image

这时候可以采取0,1的标准正态分布,为了保证距离为0的时候,结果为1,去掉前面的部分,只保留e指数的部分,最终的图像如下

image

下面是百度百科中里的具体应用:

例1.10 某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;②分别求X+-1s、X+-1.96s、X+-2.58s范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。

本例,μ、σ未知但样本含量n较大,按式(3.1)用样本均数X和标准差S分别代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。

当已知μ、σ和X时先按式u=(X-μ)/σ求得u值,再查表,当μ、σ未知且样本含量n足够大时,可用样本均数X1和标准差S分别代替μ和σ,按u=(X-X1)/S式求得u值,再查表。

原创粉丝点击