百度业务运营部_数据分析师（产品运营）岗位要求详解(1)

来源：互联网发布：数据库怎样设计表格编辑：程序博客网时间：2024/05/01 22:05

首先，附上百度业务运营部_数据分析师（产品运营）岗位的招聘详情：

业务运营部_数据分析师（产品运营）

所属部门: 百度工作地点: 北京市招聘人数: 若干公司: 百度职位类别: 产品发布时间: 2016-04-11

工作职责:

-对百度重点行业的行业现状、核心企业、市场动态、发展趋势、互联网营销推广等做深入分析，形成数据研究报告

-解读分析报告，并根据分析结论，与运营一起商讨运营策略

-运用数据分析手段，对百度的客户行业和属性形成自己的分类方式

职责要求:

-大三或者研一、研二在校生，数学、计算机或者统计学专业，对行业市场有一定的了解

-理解统计学和数据挖掘算法原理，了解数据仓库思想，会写SQL，熟悉spss、sas,R等数据挖掘软件之一

-熟练使用EXCEL,能够处理大量的数据

-了解决策树、聚类、逻辑回归，关联分析、SVM，贝叶斯等数据挖掘算法

-能够保证每周至少四个工作日的实习时间

重点解析这个岗位中职责要求里的重点技术要求：

-理解统计学和数据挖掘算法原理，了解数据仓库思想，会写SQL，熟悉spss、sas,R等数据挖掘软件之一

-熟练使用EXCEL,能够处理大量的数据

-了解决策树、聚类、逻辑回归，关联分析、SVM，贝叶斯等数据挖掘算法

提取其中的关键词：统计学、数据挖掘算法、数据仓库、SQL、SPSS、SAS、R、excel、决策树、聚类、逻辑回归、关联分析、SVM、贝叶斯，然后大致的分类：

一、数据挖掘算法：（百科：http://baike.baidu.com/link?url=hjhlCpoD_cUBZ7MnBm4_bPlCvZVNmj427nmrIiAt2Cx3h6xrY6JC0HPKiUtMxWaC1tI16GNzH4UQ4-u6MEwrIK）

数据挖掘：是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘算法：是根据数据创建数据挖掘模型的一组试探法和计算。为了创建模型，算法将首先分析您提供的数据，并查找特定类型的模式和趋势。

算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后，这些参数应用于整个数据集，以便提取可行模式和详细统计信息。

数据挖掘十大算法

概念补充：

决策树算法：决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法。所分析的数据样本是集成为一个树根，经过层层分枝，最终形成若干个节点，每个节点代表一个结论。

1）C4.5（分类算法）

C4.5是一个决策树算法，它是决策树核心算法ID3的改进算法。决策树构造方法就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。ID3以信息熵和信息增益度为衡量的标准，从而实现对数据的归纳分类。ID3计算每个属性的信息增益，并选取具有最高增益的属性作为给定的测试属性。C4.5克服了用信息增益选择属性时偏向选择取值多的属性的不足。在树构造过程中进行剪枝，在构造决策树的时候，对于那些挂着几个元素的节点，干脆不考虑最好，不然很容易导致overfitting。对非离散数据都能处理，这个其实就是一个个式，看对于连续型的值在哪里分裂好。也就是把连续性的数据转化为离散的值进行处理。能够对不完整数据进行处理，寻找一个代替数据来填充。

C4.5算法优点：产生的分类易于理解，准确率高；

缺点：a）构造树过程中，需对数据集进行多次的顺序扫描和排序，导致算法低效；

b）只适合于能够驻留于内存的数据集，当数据集大得无法再内存中容纳时，程序无法运行。

2）CART（Classificationand Regression Tree，分类与回归树）（分类算法）

CART也是一种决策树算法，着眼于总体优化。相对于那些实现一个节点下面有多个子树的多元分类，CART只是分类两个子树，这样实现起来稍稍简便些。所以说CART算法生成的决策树是结构简洁的二叉树。

3）KNN(K Nearest Neighbours，K最邻近)（分类算法）

从训练样本中找出K个与其最相近的样本，是Top-K个训练样本出来，看这K个样本中哪个类别的多些，则待判定的值（或：抽样）就属于这个类别。

缺点：a)K值需要预先设定，不能自适应；

b)当样本不平衡时，如某个类的样本容量很大，而其他类样本量小时，可能导致输入的新样本的K个邻居中大容量的样本占多数。

该算法适用于样本容量较大的类域进行自动分类。

4）Naive Bayes(朴素贝叶斯NB)（分类算法）

是基于贝叶斯定理和特征条件独立假设的分类方法。它的基础是概率问题。分类原理：通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即：该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。

5）Support Vector Machine(支持向量机SVM)（统计学习算法）

SVM是基于分类边界的方法。就是想找一个分类得最”好”的分类线/分类面（最近的一些两类样本到这个”线”的距离最远），将空间中的点按其分类聚集在不同的区域。常用的工具包是LibSVM、SVMLight、MySVM。

原理：将低维空间的点映射到高维空间，使它们成为线性可分，再使用线性划分原理来判断分类边界。

6）EM(期望最大化)（统计学习算法）

基于模型的聚类方法，在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量。例如：假设数据是由几个高斯分布组成的，所以最后就是要求几个高斯分布的参数。通过先假设几个值，然后通过反复迭代，以期望得到最好的拟合。

优点：计算结果稳定、准确；

缺点：计算复杂、收敛慢，不适合大规模计算。

7）Apriori（关联分析）

一种挖掘关联规则的算法，用于挖掘其内含的、未知的却又实际存在的数据关系。不知道为什么，一提高关联规则我就想到购物篮数据。核心：基于两阶段频集思想的递推算法。

两个阶段：a）寻找频繁项集；（支持度）

b）由频繁项集找出关联规则。（可信度）

缺点：a）在每一步产生候选项集时，循环产生的组合过多，没有排除不应参与组合的元素；

b）每次计算项集的支持度时，都对数据库的全部记录进行了一遍扫描比较，需要很大的I/O负载。

8）PageRank（数据挖掘）

是GOOGLE的页面排序算法，基于从许多优质的网页链接过来的网页，必定是优质网页的回归关系，来判定网页的重要性。例如：如果我指向你（网页间的连接）则表示我承认你，则在计算你的重要性的时候可以加上我的一部分重要性（到底多少，要看我自己有多少和我共承认多少个人）。通过反复这样来，可以求的一个稳定的衡量各个人（网页）重要性的值。不过这里必须要做些限制（一个人的开始默认重要性都是1），不然那些值会越来越大越来越大。

优点：完全独立于查询，只依赖于网页链接结构，可离线计算；

缺点：a）忽略了网页搜索的时效性；

b）旧网页的排序高、存在时间长，积累了大量的in-links，拥有新资讯的新网页排名第，几乎无in-links。

9）K-Means（聚类）

K-Means是一种最经典也是使用最广泛的聚类方法，时至今日扔然有很多基于其的改进模型提出。K-Means的思想很简单，对于一个聚类任务，首先随机选择K个簇中心，然后反复计算下面的过程直到所有簇中心不改变（簇集合不改变）为止：

步骤1：对于每个对象，计算其与每个簇中心的相似度，把其归入与其最相似的那个簇中。

步骤2：更新簇中心，新的簇中心通过计算所有属于该簇的对象的平均值得到。

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

10）AdaBoost（袋装与分类）

AdaBoost做分类的一般知道，它是一种boosting方法。这个不能说是一种算法，应该是一种方法，因为它可以建立在任何一种分类算法上，可以是决策树，NB，SVM等。

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据，并将关键放在关键的训练数据上面。

1 0