机器人的"Blog Network”和Most Popular频道

来源:互联网 发布:淘宝1920全屏店招代码 编辑:程序博客网 时间:2024/04/29 11:40

机器人的“Blog Network”

吕欣欣说“有很多东西比“钱”更精彩”。
他的blog后面列出了自己手动生成的主题阅读列表:
Blognetwork系列其他文章:

1、Icebin的困惑

2、关于Blognetwork的一些数字

3、谁来支持中文Blognetwork的发展 

4、谁来经营Blognetwork 

其他的延展阅读:

施于人:icebin为什么要困惑

詹膑:关于blogbeta,postshow,ofblog与blog network 

虹:BlogMedia与广告 

谁来经营Blognetwork
博客士:Blog的商业体现需要包工头 

老冒:blogging network: 如何维持统一和持久的品牌价值?

Icebin:也谈Blog媒体

 

其实延展阅读这类东西或者“中文博客在讨论什么”这块,可以用机器自行计算出来,不需要有什么“关键词”来作为第一推动力,就可以计算出来热点。
这么出来的东西,不就是机器人的“Blog Network”吗?
just see this photo:
http://www.flickr.com/photos/zhengyun/293060731/
 
[      “内容引擎”能够通过对数万乃至数十万篇博文进行分析后,自动算出许多组博文,每一组博文都有很高的内聚性。我们可以认为这一组博文代表了一个中文世界的热点讨论。
      百度、Google是通过用户搜索输入的关键词来判断中文世界的热点。而我们通过分析博客们写作的数十万篇博文来寻找热点的。通过这种主题自动发现技术,可以很容易知道最近中文世界人们在讨论什么、在关注什么。而不需要任何人为的输入关键词来做第一推动力。

譬如说,如下所示的热点组:

-----------主题245------------------

       核心文档:(index=11646507.xml)新快报:韩国人发明汉字

       index=11645945.xml   title=如何拯救我们的文化?

       index=11645979.xml   title=看看韩国对中国犯的七宗罪(随时更新)

       index=11647900.xml   title=汉字真是韩国人发明的又能怎样(图)

       index=11651176.xml   title=韩国人为什么敢意淫汉字?

       index=11654537.xml   title=韩国人疯了宣称“汉字是古代韩国人发明的”!

 

-----------主题246------------------

       核心文档:(index=11646015.xml)财经新闻报道的创新

       index=11645987.xml   title=财经新闻与“利益”视角――财经报道心得点滴谈

       index=11646003.xml   title=我们怎么写财经新闻

       index=11646009.xml   title=美国华人记者看中国财经报纸――《华尔街日报》成长的启示

       index=11646031.xml   title=国外财经媒体的启示:大众化还是专业化

       index=11646037.xml   title=需要财经大视野――新形势下经济报道的新特点分析

可以表明人们在讨论两个热点:“韩国人是否发明了汉字的争论”和“财经新闻如何制作的分析”。

目前,这种计算将会每天计算一次。未来希望能够半天计算一次,这就对爬虫速度以及热点计算速度提出了很高的要求。

]

["上面的热点讨论是系统每隔四小时自动生成的中文博客世界的热点讨论之一。内容引擎可以自行计算出热点,当然也可以允许用户输入中心词或者中心文章来个性化计算热点。"]

"想知道在最近三小时内中文博客们在热烈讨论什么吗?"

那就看我们的“Most Popular”频道吧。

Technorati.com依靠url链接来计算最流行的热点排行榜(Most Popular: http://www.technorati.com/pop/),在中国不可能完全根据链接计算热点,只能靠语义。

 

早先的swordi这篇blog也谈到了类似的意思不过提到的这些都是人手动作的专题并且人有意识提取在先。其实机器可以自己去发现去整理。

{

中文网志年会归来的Blog回响:编辑2.0的时代已经来临

http://swordi.com/2006/11/04/editor20-cnbloggercon-blog-media/

看起来Technorati.com在中国大陆是无法访问了:( 国内的Souyo.com有些差强人意,收录Post的速度滞后很严重,在杭州参加中文网志年会的第二天访问 Souyo.com开设的中文网志年会的专题页面,发现没有新鲜的内容。

今年有许多人在做手工编辑的网志年会内容聚合,例如博客报的Blogsir就不断在Update这个《2006中文网志年会后续报道列表总汇》,虽然不是完整收录,但是手工编辑挑选,也算是弥补了一个Technorati缺席,Souyo滞后的遗憾。

这个简单的体验,也说明Blog的发展在2006-2007将迈向一个新的阶段,在许多人近期的讨论、交流以及贴子上也可以看到端倪,那就是Blog内容的聚合、整理、再编辑、再发布。Douban.com的阿北在年会说Douban.com将推出"Blogger推荐",i.Blogbeta.com