面向电子商务网站从商品名称及商品属性中提取关键词

来源:互联网 发布:openjdk源码下载 编辑:程序博客网 时间:2024/04/27 21:39

作者简介:2008年硕士毕业于计算机软件与理论专业、信息检索与信息挖掘方向。对此方向有浓厚兴趣。现任职于上海一合资互联网公司。

面向电子商务网站从商品名称及商品属性中提取关键词

                                2010-06-03

1.为何需要关键词

1.1用于SEO

例如:http://www.alibaba.com/countrysearch/CN/China/products/A.html

1.2用于SEM

      不言自明

1.3其他

 

                                        1.3.1 Alibaba的相关关键词

 

 

                                          1.3.2 Alibaba的搜索提示

2.关键词的几种来源

2.1站外抓取

      不言自明

2.2站内积累

      比如用户的搜索词,这类词集中度高,数量有限

2.3机器生成

      这是本文的主题

3.如何机器提取关键词

      举例:

有一商品名称为:

飞利浦X100手机超长待机双卡双待双原电3500送礼啦!无货举报

属性为:

品牌: Philips/飞利浦

飞利浦型号: X100

上市时间: 2010

网络类型: GSM

外观样式:直板

主屏尺寸:1.8英寸

屏幕颜色: 26

机身颜色:+现货 全黑色现货

手机套餐:套餐三 套餐一 套餐二 ...

铃声: MP3铃声

摄像头:无摄像头

是否智能手机:非智能手机

操作系统:无操作系统

储存功能: TF(microSD)

高级功能:超大屏幕

宝贝成色:全新

售后服务:全国联保

手机价格区间: 1000元以下

     关键词提取步骤:

第一步:

使用机器学习的方法从商品名称中提取出能表示该商品典型意义的词。本例中可提取出飞利浦手机超长待机双卡双待

T = {飞利浦,手机,超长待机,,双卡双待}

这一步是核心。【具体如何做,涉及到公司技术保密,在此不能深谈了】

第二步:

将属性值提取出来,A = { Philips/飞利浦,X1002010年,GSM,直板,1.8英寸26万,黑+现货 全黑色现货,套餐三 套餐一 套餐二,MP3铃声,无摄像头,非智能手机,无操作系统,TF(microSD)卡,超大屏幕,全新,全国联保,1000元以下}
依照您对关键词质量的高低,对A进行去噪音词、去除质量不高的词、去除一些公共属性值如全国联保等操作。最后还剩下

A = { Philips,飞利浦,2010年,GSM,直板,MP3铃声,TF(microSD)卡,超大屏幕,全新},再将A中的词比较于T进行去重得到A = { Philips2010年,GSM,直板,MP3铃声,TF(microSD)卡,超大屏幕,全新}

第三步:

T中的词与A中的词进行组合,具体如何组合,就发挥您的聪明才智吧。

 

 

 

 

 

原创粉丝点击