pid match算法思想

来源:互联网 发布:数据上报系统 编辑:程序博客网 时间:2024/06/08 19:40

在电子商务搜索领域,商品搜索中,pid match 算法是扩展产品库的有效方法。主要作用是根据商品title,将该商品归到一条spuid记录下。

原理:

1.将产品库中关键属性(如:nokia N97(代表品牌 和 型号))提取出来,分词,并丢关键属性中的一些弃垃圾词(丢弃算法:根据该条spuid下挂商品title分词之后,统计词频最低的词丢弃);

2.得到所有分词之后的关键属性词之后,建立倒排索引:关键属性词-->对应spuid集合以及权重。权重计算方法:计算idf权重;

3.得到倒排索引表之后,对每一个宝贝title,同样分词,查询倒排索引表,计算权重之和,将该宝贝归到权重最高的一条spuid下面。