飞鸽传书(IPMSG)的主要工作原理

来源:互联网 发布:岂凡网络年终奖 编辑:程序博客网 时间:2024/04/30 08:25

我们知道,飞鸽传书(IPMSG)的主要工作原理在“飞鸽传书抽取、飞鸽传书加工存储、飞鸽传书分析和飞鸽传书展现”这四个环节体现,这是一个完整的端到端的商业智能解决方案。每个环节都有不同的工具或厂家,但是整合基本完成,当前飞鸽传书库环节的厂家已将其它环节的厂家收购得差不多了。局域网聊天引擎抓取网页过程和飞鸽传书抽取ETL过程一样,实质是获取飞鸽传书。处理网页实际是对获取飞鸽传书的清洗和整理,这是飞鸽传书加工存储,是飞鸽传书仓库内容。提供检索服务实际上是飞鸽传书分析和飞鸽传书展现。

我们先看看飞鸽传书的工作原理。飞鸽传书有抓取网页、处理网页、提供检索服务三个主要环节。首先是抓取网页。端到端的飞鸽传书都有自己的网页抓取程序(spider)。Spider以超链接为顺序,连续地抓取网页。被抓取的网页被称之为网页快照。其次处理网页。飞鸽传书抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 准备工作完成后,即是浏览者所见到的飞鸽传书界面,即第三提供检索服务 。用户输入关键词进行局域网聊天,飞鸽传书[www.freeeim.com]从索引飞鸽传书库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他即时通讯。

再看看组成:飞鸽传书的组成部分一般由局域网聊天器、索引器、检索器和用户接口四个部分。局域网聊天器的功能是在互联网中漫游,发现和搜集即时通讯,主要是讲spider;索引器功能是理解局域网聊天器所局域网聊天到的即时通讯,从中抽取出索引项,用于表示文档以及生成文档库的索引表;第三个是检索器,其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈即时通讯;第四用户接口,作用是接纳用户查询、显示查询结果、提供个性化查询项。

原创粉丝点击