面向电子商务网站从商品名称及商品属性中提取关键词
来源:互联网 发布:openjdk源码下载 编辑:程序博客网 时间:2024/04/27 21:39
作者简介:2008年硕士毕业于计算机软件与理论专业、信息检索与信息挖掘方向。对此方向有浓厚兴趣。现任职于上海一合资互联网公司。
面向电子商务网站从商品名称及商品属性中提取关键词
2010-06-03
1.为何需要关键词
1.1用于SEO
例如:http://www.alibaba.com/countrysearch/CN/China/products/A.html
1.2用于SEM
不言自明
1.3其他
图1.3.1 Alibaba的相关关键词
图1.3.2 Alibaba的搜索提示
2.关键词的几种来源
2.1站外抓取
不言自明
2.2站内积累
比如用户的搜索词,这类词集中度高,数量有限
2.3机器生成
这是本文的主题
3.如何机器提取关键词
举例:
有一商品名称为:
飞利浦X100手机超长待机双卡双待双原电冲3500台送礼啦!无货举报
属性为:
品牌: Philips/飞利浦
飞利浦型号: X100
上市时间: 2010年
网络类型: GSM
外观样式:直板
主屏尺寸:1.8英寸
屏幕颜色: 26万
机身颜色:黑+银现货 全黑色现货
手机套餐:套餐三 套餐一 套餐二 ...
铃声: MP3铃声
摄像头:无摄像头
是否智能手机:非智能手机
操作系统:无操作系统
储存功能: TF(microSD)卡
高级功能:超大屏幕
宝贝成色:全新
售后服务:全国联保
手机价格区间: 1000元以下
关键词提取步骤:
第一步:
使用机器学习的方法从商品名称中提取出能表示该商品典型意义的词。本例中可提取出飞利浦、手机、超长待机、双卡双待。
令 T = {飞利浦,手机,超长待机,,双卡双待}
这一步是核心。【具体如何做,涉及到公司技术保密,在此不能深谈了】
第二步:
将属性值提取出来,A = { Philips/飞利浦,X100,2010年,GSM,直板,1.8英寸,26万,黑+银现货 全黑色现货,套餐三 套餐一 套餐二,MP3铃声,无摄像头,非智能手机,无操作系统,TF(microSD)卡,超大屏幕,全新,全国联保,1000元以下}
依照您对关键词质量的高低,对A进行去噪音词、去除质量不高的词、去除一些公共属性值如全国联保等操作。最后还剩下
A = { Philips,飞利浦,2010年,GSM,直板,MP3铃声,TF(microSD)卡,超大屏幕,全新},再将A中的词比较于T进行去重得到A = { Philips,2010年,GSM,直板,MP3铃声,TF(microSD)卡,超大屏幕,全新}
第三步:
将T中的词与A中的词进行组合,具体如何组合,就发挥您的聪明才智吧。
- 面向电子商务网站从商品名称及商品属性中提取关键词
- 从淘宝数据结构来看电子商务中商品属性设计
- 从淘宝数据结构来看电子商务中商品属性设计
- 再从淘宝数据结构来看电子商务中商品属性设计
- 从淘宝数据结构来看电子商务中商品属性设计
- 再从淘宝数据结构来看电子商务中商品属性设计
- 从淘宝数据结构来看电子商务中商品属性设计
- 再从淘宝数据结构来看电子商务中商品属性设计
- 电子商务策划之商品属性规划
- 电子商务网站商品推荐案例分析
- NLP中关键词的提取
- 从提取网页关键词到TF-IDF
- 移动电子商务网站可用性-商品页面和购物车
- 文本关键词提取算法及自动摘要
- JAVA 从项目的 properties 文件中 提取 属性值
- 关于关键词提取,摘要提取的,及文本相似总结
- 关键词提取
- 关键词提取
- bat 批命令学习
- AVRUSB技术探讨(转)
- IF执行批处理程序中的条件处理:
- ORACLE应用经验
- include/sys/dir.h
- 面向电子商务网站从商品名称及商品属性中提取关键词
- 如何在Dreamweaver中用css设置字体?
- Java的异常处理机制的一个例子-读后定能对异常理解深刻
- Android: Android Thumbnail 攻略
- 关于一级缓存和二级缓存的理解
- PKU做题顺序小结
- C#调用Windows API总结
- Common Lisp的学习
- DirectX 开启硬件加速