PHP做中文分词技术

来源:互联网 发布:剑三咩萝捏脸数据 编辑:程序博客网 时间:2024/06/06 08:27

今天做了个中文分词技术,觉得好用,分享给大家试试好用吗,我用的是ThinkPHP3.2.3框架做的,不知道大家喜欢用这个框架不。

步骤如下:

1:下载scws官方提供的类,地址是讯搜官网的

2:下载XDB 词典文件:这个是词库 放到Public\admin\dict没有就添加

3:解压scws类Pscws.class.php,并加上命名空间(pscws4.class.php文件名换成了pscws.class.php;xdb_r.class.php文件名换成XDB_R.class.php)

4:修改Pscws.class.php 文件里的require 包含XDB_R.class.php:require_once (dirname(__FILE__) . ‘/XDB_R.class.php’);

5:入口文件添加常量

           define("CONF_PATH", dirname(__FILE__)."/Public/admin/dict/");

6:调用文件

注意构造函数改为:

function __construct() { $this->PSCWS4(‘utf-8’); }

调用代码示例

     protect function get_tags($title,$num=null){                $pscws = new \Org\Util\Pscws('utf8');        $pscws->set_dict(CONF_PATH . 'dict.utf8.xdb');        $pscws->set_rule(CONF_PATH . 'rules.utf8.ini');        $pscws->set_ignore(true);        $pscws->send_text($title);        $words = $pscws->get_tops($num);        $pscws->close();        $tags = array();        foreach ($words as $val) {            $tags[] = $val['word'];        }        return implode(',', $tags);    }      /**     * 商品搜索结果页     **/    public function search(){        $str=$this->get_tags("衣服裤子鞋子");        print_r($str);    }
文档下载地址:点击打开链接