Hadoop大数据系列---概述

来源：互联网发布：淘宝留言编辑：程序博客网时间：2024/05/02 22:11

1.交通流量数据，气象云图数据，邮件网络数据，微博传输数据；

2.互联网应用：移动互联网、社交网络、电子商务...

非互联网应用：医学、气象、传感器...

3.搜索引擎、社交网络、电子商务、互联网电视、游戏、移动互联网

4.爆发式增长：实时数据、非结构化数据、机器数据...

5.社会化趋势：UGC（用户生成内容）、用户行为、用户关系、大量的碎片化的信息...

6.大数据的特征：体量大（Volume）、多样性（Variety）、价值密度低（Value）、速度快（Velocity）

7.大数据技术的挑战：现有数据库处理技术、多样性数据的存储、实时数据处理技术、网络架构数据中心以及运维

8.分析技术：

数据预处理（自然语言处理）

统计和分析（A/B test、top N排行榜、地域占比、文本情感分析...）

数据挖掘（聚类、分类、关联、预测、统计学习、人工智能、机器学习、建模仿真）

9.大数据技术：

数据采集（网络日志、传感器数据、气象数据...）

数据存储（结构化数据》关系型数据库》SQL，非结构化数据》非关系型数据库》NoSQL，班结构化数据》转为结构化数据存储/按非结构化数据存储》云存储、ETL工具）

10.大数据的机遇与挑战

电力局利用电表数据预测房屋空置率；

隐私安全问题；

11.大数据应用心得

数据要有价值；

数据越多越好；

深度挖掘，精准营销；

12.搜索引擎概述

定义：以web相关技术为基础，对网络信息资源进行抓取与采集，建立索引数据库，并对搜索结果进行排序，能依据用户需求查找相应信息的在线搜索系统。

搜索的分类：大搜索（网页搜索）、垂直搜索（专业、分类搜索）、基于语义的搜索；

搜索引擎的分类：元搜索引擎、集成搜索引擎；

搜索引擎的体系结构：爬虫》索引器》检索器》用户接口

搜索引擎的基本步骤：爬虫》信息抽取》分词》外链分析》数据存储》结果获取》相关度排序》效能优化

爬虫

要求：全面、快速、非重；

限制：有限的带宽和无限的网络，无法确定更新状态，不断变化的内容和URL，需要有礼貌的访问；

信息抽取

页面分类，解析页面，内容抽取，排重；

内容的初步理解

分词的准确性

内容的深度理解

客观索引（作者、URL、更新时间...）》索引《内容索引（关键词、权重、短语...；单索引和双索引）

外链分析

外链：外链词是关键内容的提炼；静态权重（网页的相对重要程度）和动态权重（与检索词相关的）==》相关性；

局限（没有网页整合能力）》搜索引擎《补充（社区和知识库）

13.推荐系统的表现形式

购物篮分析》推荐系统》个性化推荐

常见表现形式：猜你喜欢，买了又买，精品推荐，关联互补；

14.推荐系统的基本算法

CF协同过滤算法：

基于用户的过滤

易于实现

频繁计算

基于物品的过滤

不需要频繁计算

不容易实现

聚类及相似度算法：

聚类算法

聚类的结果使同一个簇中的对象之间具有较高的相似，而不同簇中的对象差别较大

常见的聚类算法：

基于密度的聚类

基于划分的聚类

基于距离的聚类

基于概率分布的聚类

相似度分类：

欧几里得距离相似度

余弦相似度

调整余弦相似度

皮尔森相关性相似度

斯皮尔曼相关性相似度

基于谷本系数相似度

基于知识的推荐算法：

基于知识推理来产生推荐

不依赖于用户评分，不存在冷启动问题

用户偏好发生变化时，不需要额外训练

推理方式

规则推理

本体推理

案例推理

关联规则算法

Apriori算法

FP-Growth算法

分类算法：贝叶斯分类SVM

画像建模：用户行为

效用推荐：可靠性，可得性

社交网络：N度好友理论

登录首页（新款推荐）》物品详情页（推荐组合）》购物页（价格优惠）》订单页（买过还买）

收藏页（精品推荐）

推荐系统10大挑战：

数据稀疏，冷启动，增量计算，多样性与精确性的选择，推荐系统的脆弱性，用户行为的挖掘和利用，推荐系统的评估，用户界面与用户体验，多维数据交叉利用，社交网络推荐。

15.舆情监控系统

舆情=舆论情况

网络舆情》互联网首发或传播/表达的主体是网民

来源：网站新闻评论，论坛与BBS，QQ，MSN，博客BLOG，微博，微信

舆情监控的难点：

抓到实时信息；

找到与我相关的信息；

找到最需要的信息；

全网监控；

0 0