第2次实验——算法基本功 与 综合思考

来源:互联网 发布:海岛研究所数据大全 编辑:程序博客网 时间:2024/05/24 06:07

实验内容(4选2即可,推荐多完成一些

(1)算法基本功——快速排序

    对文件 largeW.txt(下载链接)中的数据,应用快速排序算法进行排序,并与冒泡排序、归并排序进行时间比较。体验算法复杂度对设计算法的影响。

(2)经典算法面试题(至少选择其中1道题并作答,有自己的思考与理解)

    收集一些top软件公司经典算法面试题(有很多公司的经典面试题,可供选择)

    白话经典算法序列(个人非常优秀的总结)

    ……

(3)算法综合实践——搜索引擎

    上网搜索有关“搜索引擎”的相关资料,包括但不限于以下方面(至少要有2个方面):搜索引擎岗位要求、搜索引擎工作原理、搜索引擎涉及到教材中哪些算法、搜索引擎的盈利模式、搜索引擎源码链接、国内外搜索引擎公司现状等。

(4)实习与工作

    上招聘网站(如 51job、智联招聘)上查看自己感兴趣的职位与要求。作业要求:写下自己感兴趣工作的至少2个岗位名称(如Java程序员、搜索引擎工程师)、工作岗位具体要求、自身目前具备哪些条件、有哪些不足的地方并如何弥补。

===================

(2)有A、B、C、D四个人,要在夜里过一座桥。他们通过这座桥分别需要耗时1、2、5、10分钟,只有一支手电,并且同时最多只能两个人一起过桥。请问,如何安排,能够在17分钟内这四个人都过桥?
答:
==一只手电,每次同时最多两人过桥。每次过去都应该是两个人,然后在让一个人送手电过来。有点像哈夫曼树。
==A和B过桥 共耗时2分钟
==A送手电过来 共耗时3分钟
==C和D过桥 共耗时13分钟
==B送手电过来 共耗时15分钟
==A和B过桥 共耗时17分钟


(3)算法综合实践——搜索引擎
答:
====搜索引擎工作原理
第一步:爬行
搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。

第二步:抓取存储
搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

第三步:预处理
搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
⒈提取文字
⒉中文分词
⒊去停止词
⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)
5.正向索引
6.倒排索引
7.链接关系计算
8.特殊文件处理
除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。 但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。

第四步:排名
用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

====搜索引擎的盈利模式
在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着2001年互联网泡沫的破灭,大多转向为竞价排名方式。
搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔·格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。
AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同时,Google武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network),YPN ;除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS ;订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。

===搜索引擎源码链接
PHP搜索引擎:http://down.admin5.com/php/search/
ASP.NET搜索引擎:http://down.admin5.com/net/search/
开源中国搜索引擎项目源码:http://www.oschina.net/project/tag/130/search-engine

====搜索引擎岗位要求
1、年以上的SEO经验,网络热门关键词分析相关经验;
2、有主流搜索引擎(百度、谷歌、雅虎等)相关优化公司任职经验者优先;
3、精通SEO优化、熟悉搜索引擎算法变化,能够根据搜索引擎算法变化及时调整网站策略;
4、精通Web2.0架构(DIV+CSS),并能够熟练使用;
5、熟悉各种CMS内容管理系统;
6、了解百度、 Google 、雅虎等搜索引擎相关知识和广告系统推广后台;
7、熟悉HTML,JavaScript等与网站前端相关的技术;
8、有相关网站优化成功案例者优先;
9、有较强的互联网行业背景,1年以上同等职位的工作经验;
10、很强的Excel、ppt操作能力;
11、具有较强的学习能力、文案撰写和数据分析能力;
12、自信,耐心,责任心强,具有较好的团队合作精神和执行力;
13、1年相关工作经验,对搜索营销有较深的认识;
14、有很强的分析和独立思考能力,具有团队协作精神;
15、熟练应用办公软件;
16、逻辑思维紧密,做事严谨;
17、良好的口头和书面沟通能力和销售能力;
18、良好的沟通能力,能够已口头和书面形式与产品技术组沟通,落实SEO优化建议;

0 0