Hadoop大数据系列---概述

来源:互联网 发布:淘宝留言 编辑:程序博客网 时间:2024/05/02 22:11

1.交通流量数据,气象云图数据,邮件网络数据,微博传输数据;

2.互联网应用:移动互联网、社交网络、电子商务...

   非互联网应用:医学、气象、传感器...

3.搜索引擎、社交网络、电子商务、互联网电视、游戏、移动互联网

4.爆发式增长:实时数据、非结构化数据、机器数据...

5.社会化趋势:UGC(用户生成内容)、用户行为、用户关系、大量的碎片化的信息...

6.大数据的特征:体量大(Volume)、多样性(Variety)、价值密度低(Value)、速度快(Velocity)

7.大数据技术的挑战:现有数据库处理技术、多样性数据的存储、实时数据处理技术、网络架构数据中心以及运维

8.分析技术:

数据预处理(自然语言处理)

统计和分析(A/B test、top N排行榜、地域占比、文本情感分析...)

数据挖掘(聚类、分类、关联、预测、统计学习、人工智能、机器学习、建模仿真)

9.大数据技术:

数据采集(网络日志、传感器数据、气象数据...)

数据存储(结构化数据》关系型数据库》SQL,非结构化数据》非关系型数据库》NoSQL,班结构化数据》转为结构化数据存储/按非结构化数据存储》云存储、ETL工具)

10.大数据的机遇与挑战

电力局利用电表数据预测房屋空置率;

隐私安全问题;

11.大数据应用心得

数据要有价值;

数据越多越好;

深度挖掘,精准营销


12.搜索引擎概述

定义:以web相关技术为基础,对网络信息资源进行抓取与采集,建立索引数据库,并对搜索结果进行排序,能依据用户需求查找相应信息的在线搜索系统。

搜索的分类:大搜索(网页搜索)、垂直搜索(专业、分类搜索)、基于语义的搜索;

搜索引擎的分类:元搜索引擎、集成搜索引擎;

搜索引擎的体系结构:爬虫》索引器》检索器》用户接口

搜索引擎的基本步骤:爬虫》信息抽取》分词》外链分析》数据存储》结果获取》相关度排序》效能优化

爬虫

要求:全面、快速、非重;

限制:有限的带宽和无限的网络,无法确定更新状态,不断变化的内容和URL,需要有礼貌的访问;

信息抽取

页面分类,解析页面,内容抽取,排重;

内容的初步理解

分词的准确性

内容的深度理解

客观索引(作者、URL、更新时间...)》索引《内容索引(关键词、权重、短语...;单索引和双索引)

外链分析

外链:外链词是关键内容的提炼;静态权重(网页的相对重要程度)和动态权重(与检索词相关的)==》相关性;

局限(没有网页整合能力)》搜索引擎《补充(社区和知识库)


13.推荐系统的表现形式

购物篮分析》推荐系统》个性化推荐

常见表现形式:猜你喜欢,买了又买,精品推荐,关联互补;

14.推荐系统的基本算法

CF协同过滤算法:

基于用户的过滤

易于实现

频繁计算

基于物品的过滤

不需要频繁计算

不容易实现

聚类及相似度算法:

聚类算法

聚类的结果使同一个簇中的对象之间具有较高的相似,而不同簇中的对象差别较大

常见的聚类算法:

基于密度的聚类

基于划分的聚类

基于距离的聚类

基于概率分布的聚类

相似度分类:

欧几里得距离相似度

余弦相似度

调整余弦相似度

皮尔森相关性相似度

斯皮尔曼相关性相似度

基于谷本系数相似度

基于知识的推荐算法:

基于知识推理来产生推荐

不依赖于用户评分,不存在冷启动问题

用户偏好发生变化时,不需要额外训练

推理方式

规则推理

本体推理

案例推理

关联规则算法

Apriori算法

FP-Growth算法

分类算法:贝叶斯分类SVM

画像建模:用户行为

效用推荐:可靠性,可得性

社交网络:N度好友理论


登录首页(新款推荐)》物品详情页(推荐组合)》购物页(价格优惠)》订单页(买过还买)

收藏页(精品推荐)

推荐系统10大挑战:

数据稀疏,冷启动,增量计算,多样性与精确性的选择,推荐系统的脆弱性,用户行为的挖掘和利用,推荐系统的评估,用户界面与用户体验,多维数据交叉利用,社交网络推荐。


15.舆情监控系统

舆情=舆论情况

网络舆情》互联网首发或传播/表达的主体是网民

来源:网站新闻评论,论坛与BBS,QQ,MSN,博客BLOG,微博,微信

舆情监控的难点:

抓到实时信息;

找到与我相关的信息;

找到最需要的信息;

全网监控;





0 0
原创粉丝点击