thuctc文本分类系统改写和使用

来源:互联网 发布:mac os下载软件 编辑:程序博客网 时间:2024/05/16 08:44

1.官网介绍:

THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。文本文类通常包括特征选取、特征降维、分类模型学习三个步骤。如何选取合适的文本特征并进行降维,是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验,在THUCTC中选取二字串bigram作为特征单元,特征降维方法为Chi-square,权重计算方法为tfidf,分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普适性,不依赖于任何中文分词工具的性能,具有准确率高、测试速度快的优点。

2.使用:

下载thuctc的代码,运行查看效果

程序大体的思路:

1)文本训练,生成训练模型

新建一个 新建分类器对象,设置参数对分类器进行初始化。


然后根据输入参数,运行分类系统 BasicTextClassifier.runAsBigramChineseTextClassifier()

/** * 根据输入参数,运行分类系统 */public void runAsBigramChineseTextClassifier() {TextClassifier classifier = null;if(linear)classifier = (LinearBigramChineseTextClassifier) this.getTextClassifier();else classifier = (BigramChineseTextClassifier) this.getTextClassifier();String content = "";//addfiles(trainingFolder);categoryToInt.put("电商", 0);categoryToInt.put("战争", 1);categoryToInt.put("体育", 2);categoryToInt.put("娱乐", 3);classifier.addTrainingText("12315将接入电商平台 2017-02-13 16:38:11 来源: 作者: 电商领域工商总局消费环境 电商领域的消费投诉近年来持续攀升,维权难是消费者反映的普遍问题。近日,国家工商总局出台的关于切实加强12315消费者权益保护工作的意见指出,在提高12315专用电话畅通率的基础上,将强化12315互联网及移动互联受理渠道建设,推进12315接入网购平台。意见指出,各地工商和市场监管部门将继续推动社会共治、营造安全放心的消费环境。各地将积极推进12315进网络交易平台、电视购物平台等经营主体工作,引导和督促经营者设立“消费维权服务站”,健全不合格商品退市、消费纠纷和解与消费侵权赔偿等制度,及时受理和处理消费者投诉,并落实经营者首问和赔偿先付制度。在中国电子商务研究中心特约研究员赵占领看来,现在仍有不少消费者尚未养成通过12315进行维权的习惯。“推进12315接入电商、电视购物平台,可以方便更多的消费者在维权受阻时获得帮助。”赵占领表示,如果12315直接嵌入到平台系统中,也将对企业起到督促、约束的作用。不少电商企业与12315平台的互通机制已有先例。去年“3·15”期间,中消协对外宣布,在苏宁易购、京东、淘宝、唯品会等17家电商企业启动电商消费维权绿色通道(直通车)平台。(记者 陈雪柠)", 0);classifier.addTrainingText("2016年12月20日,几名俄罗斯士兵在叙利亚阿勒颇街头执勤。埃尔多安出卖了阿勒颇土耳其未遂政变后,总统埃尔多安立马投向俄罗斯。土俄商议的结果:俄罗斯支持土耳其出兵叙利亚!土耳其招募阿勒颇的叙利亚反对派,前往叙利亚北部参加其“幼发拉底之盾”行动。实际结果就是,土耳其出卖了叙利亚反对派在阿勒颇的利益,来换取土耳其在叙利亚北部的势力范围。因为土耳其出更高的薪水,数千叙利亚反对派武装人员离开阿勒颇战场,参加“幼发拉底之盾”行动,让俄叙联军得以轻易攻占阿勒颇反对派控制区。阿萨德政府对土叙边境地区鞭长莫及,与其让库尔德武装坐大,不如拱手让给土耳其,来换取叙利亚最大城市阿勒颇。因急于弥补美土关系,美国也同意让土耳其以打击IS为名进入叙利亚。但6年的叙利亚战争中,土耳其民间有大批伊斯兰主义者公开同情叙反对派。基地组织胜利阵线和叙利亚“自由军”在土耳其享有相当的支持。土耳其政府能够为地缘政治见风使舵,却不能完全控制国内的暗流涌动。刺杀俄大使的土耳其特警,就高喊“不要忘记阿勒颇!”突然被土耳其抛弃的IS,更是与土耳其反目成仇。2016年初土耳其开始炮火支持叙利亚“自由军”进攻IS后,土耳其曾经支持的车臣头目艾哈迈德·沙提叶夫(Akhmed Chatayev)便策划了伊斯坦布尔机场袭击。袭击机场的3名人肉炸弹,分别来自俄罗斯(车臣)、乌兹别克斯坦与吉尔吉斯斯坦。支持叙反对派武装时,土耳其曾大打突厥牌。土情报机构MIT招募大批高加索和中亚人赴叙参战。许多在土避难的车臣和中亚难民,被土耳其“鼓励”前往叙利亚。车臣人组成了胜利阵线和IS的精锐部队;其次就是来自中亚的“圣战者”。土耳其警方刚刚抓获跨年夜袭击伊斯坦布尔夜总会“Reina”的主要嫌犯—乌兹别克斯坦公民阿卜杜拉·卡迪尔。土警方还认为,策划夜店袭击的主谋正是IS车臣头目艾哈迈德·沙提叶夫。与往次不同,这次IS公开宣称了责任。如果上次伊斯坦布尔机场袭击只是一个警告的话,这次IS是与土耳其公开决裂了。为了打击IS,土耳其出动了8000正规军前往叙利亚,加上2000叙利亚“自由军”,以1万兵力开到IS占领的巴卜城下。但让人大跌眼镜的是,号称北约第二大陆军的土耳其军队居然在3个月中毫无进展,反而在IS反扑下丢盔卸甲,失去大批先进的德制豹-2坦克。这是因为,土军所面对的不再是只有AK冲锋枪等轻武器的库尔德工人党游击队,而是武装到牙齿的IS。后者在叙利亚拥有包括美制陶式在内的各种反坦克导弹,土耳其装甲反而成了铁皮靶子。再有,政变后的土耳其军队显然受到了大清洗的影响。土耳其空军的大批飞行员被捕,导致土耳其居然请求俄空军协助轰炸巴卜。眼下,被土耳其视为大敌的库尔德工人党组织,正在伊拉克、叙利亚战场日益壮大。而土耳其国内一大帮“伊斯兰国”和基地组织同情者,又在蠢蠢欲动。土耳其希望通过投向俄罗斯,改善自身不利处境,但这种“背叛”却使得其在国际上更加孤立。随着经济和货币急转直下,土耳其国内短期内只会更加动荡。", 1);classifier.addTrainingText(" 2月13日,广州恒大俱乐部召开了新赛季管理会议。恒大老板许家印向球队明确新赛季目标:力争2017年中超、亚冠、足协杯、超级杯四冠王,同时要求球队在2020年实现全华班的目标。每年的新赛季开始之前,许家印都要为球队召开誓师大会进行动员,今年也不例外,并公开在媒体面前召开这次新赛季管理会议,说明了意义与决心。许家印表示,球队去年在主教练斯科拉里的带领下实现三冠,今年要更进一步,力争拿下中超、亚冠、足协杯、超级杯四座冠军奖杯。此外,许家印还在会上再次强调比赛中要狼性十足,血拼对手,要为球迷带来精彩的比赛。同时,许家印还强调:恒大俱乐部在进入中超联赛以来,在7年的时间里已经夺得了13个冠军,实现了第一阶段目标。可以说,在7年前当恒大队提出夺得这样的目标时候并没有多少人认为这是一个可实现的目标,但事实证明,恒大队不仅提前实现了目标,还超额提前实现了目标。完成了第一阶段的目标,许家印说,下一阶段恒大争取实现的目标就是全华班,力争在2020年实现世界级名帅加全华班的阵容构想。或许这样的构想目标外界一样认为难度不小,甚至不可实现。许家印也深知困难所在,也因此,对于第二阶段的规划,许家印也提出了具体措施:就是启用年轻球员。选取俱乐部青训球员与其他俱乐部进行交流,每年硬性要求在恒大足校破格晋升2名球员到二队比赛,在二队晋升2个名额到一队,在4年内完成全华班构想。7年时间,广州恒大队豪夺中超联赛的六冠王。2017赛季恒大目标力争拿下中超、亚冠、足协杯、超级杯四座冠军奖杯。而就在此前恒大亚冠联赛刚刚抽得还算不错的签位,相比亚冠签位,中超联赛一开局恒大队就对阵激烈,将面临国安、鲁能、上港、苏宁、申花、华夏等这样强劲的实力对手。虽然很具有挑战性,但只要开局把握的好,恒大队便可占据先机,可谓是机遇与挑战并存。2017赛季,恒大力争四冠王目标绝非易事,无论成败都应该为恒大的目标鼓掌。(于静)", 2);classifier.addTrainingText("邓超被爆料曾在录制《奔跑吧兄弟》时因拒绝搭乘直升机,被网友炮轰耍大牌,但事实上他当时是因为患有幽闭恐惧症而无法上机。邓超主演邓超主演 新浪娱乐讯 据台湾媒体报道,《奔跑吧兄弟》改编自南韩综艺《Running Man》,邓超[微博]、李晨[微博]、王祖蓝[微博]、郑恺[微博]、Angelababy、陈赫[微博]、鹿晗[微博]等固定班底主持,其中队长邓超的逗趣表现更是让网友印象深刻。但是他却曾因在录制时拒绝搭乘直升机,被网友炮轰耍大牌,而事实上当时他是因为患有幽闭恐惧症,才提出下机要求。媒体报导,邓超近日在接受专访时透露,自己过去在演出电影《烈日灼心》中辛小丰一角时,为了可以更加投入角色,他在剧组中几乎是呈现一种不理人的状态,甚至与合作多次的工作人员都是0互动。他称自己在拍完戏之后,感觉自己只剩一具躯壳,最后他在心理上也陷入了一种幽闭恐惧,之后更发现到自己患上了幽闭恐惧症。邓超先前曾经遭到网友爆料,他在录制《奔跑吧兄弟》时因拒绝搭乘直升机,被网友炮轰耍大牌,但事实上他当时是因为患有幽闭恐惧症而无法上机,患病之后的他连带女儿玩游乐设施,也都会因安全带太紧而吓得满身大汗,甚至连去看病做核磁共振时,也无法进入舱内。但是,敬业的他却认为这就是演员的责任,这就是角色的人生,我就爱表演这种独一无二。", 3);lexiconSize = classifier.getLexicon().getSize();classifier.train();modelLoaded = true;System.out.println("将模型输出成string=======>");System.out.println(classifier.saveToString());try {Thread.sleep(20000);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();}}


这个方法进行的工作是:统计所有分类,将分类从0开始进行编号,然后加载训练文本(将文本和分类编号进行对应),运行训练。生成一个文本或者是生成字符串模型,为了方便后面的文本分类操作我将生成的字符串模型放在数据库中进行保存后续使用。分类训练文本越多越精确。

2)文本分类

新建分类器对象,初始化分类器,设置分类种类,并读取模型,这里从数据库读取上述的字符串即可,然后使用分类器进行分类。

输入文本,设置保留的分类结果个数,输出分类名称和得分。

/** * 如果需要读取已经训练好的模型,再用其进行分类,可以按照本函数的代码调用分类器 *  */public static void runLoadModelAndUse() {// 新建分类器对象BasicTextClassifier classifier = new BasicTextClassifier();// 设置分类种类,并读取模型classifier.loadCategoryList();classifier.setTextClassifier(new LinearBigramChineseTextClassifier(classifier.getCategorySize()));classifier.getTextClassifier().loadFromString("rO0ABXNyABdvcmcudGh1bmxwLnRleHQuTGV4aWNvbgAAAAAAAAABAgAFWgAGbG9ja2VkSgAHbnVtRG9jc0wABmlkSGFzaHQAFUxqYXZhL3V0aWwvSGFzaHRhYmxlO0wACG5hbWVIYXNocQB+AAFMAAd0ZXJtU2V0dAAPTGphdmEvdXRpbC9TZXQ7eHABAAAAAAAAAARzcgATamF2YS51dGlsLkhhc2h0YWJsZRO7DyUhSuS4AwACRgAKbG9hZEZhY3RvckkACXRocmVzaG9sZHhwP0AAAAAAAEd3CAAAAF8AAAAsc3IAEWphdmEubGFuZy5JbnRlZ2VyEuKgpPeBhzgCAAFJAAV2YWx1ZXhyABBqYXZhLmxhbmcuTnVtYmVyhqyVHQuU4IsCAAB4cAAAACtzcgAcb3JnLnRodW5scC50ZXh0LkxleGljb24kV29yZAAAAAAAAAABAgAESQACZGZJAAJpZEkAAnRmTAAEbmFtZXQAEkxqYXZhL2xhbmcvU3RyaW5nO3hwAAAAAgAAACsAAAADdAAG55Sa6Iezc3EAfgAGAAAAKnNxAH4ACQAAAAIAAAAqAAAABHQABuS6i+WunnNxAH4ABgAAAClzcQB+AAkAAAACAAAAKQAAAAN0AAbkvYbkuotzcQB+AAYAAAAoc3EAfgAJAAAAAgAAACgAAAACdAAG5Li66L+Zc3EAfgAGAAAAJ3NxAH4ACQAAAAIAAAAnAAAAA3QABuaPkOWHunNxAH4ABgAAACZzcQB+AAkAAAACAAAAJgAAAAN0AAblqpLkvZNzcQB+AAYAAAAlc3EAfgAJAAAAAgAAACUAAAADdAAG6KaB5rGCc3EAfgAGAAAAJHNxAH4ACQAAAAIAAAAkAAAAA3QABuabtOWKoHNxAH4ABgAAACNzcQB+AAkAAAACAAAAIwAAAAJ0AAbov5nnp41zcQB+AAYAAAAic3EAfgAJAAAAAgAAACIAAAACdAAG5ZCO55qEc3EAfgAGAAAAIXNxAH4ACQAAAAIAAAAhAAAABHQABuaYr+WboHNxAH4ABgAAACBzcQB+AAkAAAACAAAAIAAAAAJ0AAbov5nmmK9zcQB+AAYAAAAfc3EAfgAJAAAAAgAAAB8AAAACdAAG56ys5LqMc3EAfgAGAAAAHnNxAH4ACQAAAAIAAAAeAAAAAnQABuS4uuS6hnNxAH4ABgAAAB1zcQB+AAkAAAACAAAAHQAAAAJ0AAbkuIDkuKpzcQB+AAYAAAAcc3EAfgAJAAAAAgAAABwAAAACdAAG5piv5LiAc3EAfgAGAAAAG3NxAH4ACQAAAAIAAAAbAAAAAnQABui0o+S7u3NxAH4ABgAAABpzcQB+AAkAAAACAAAAGgAAAAN0AAbov5nmrKFzcQB+AAYAAAAZc3EAfgAJAAAAAwAAABkAAAAEdAAG6K6k5Li6c3EAfgAGAAAAGHNxAH4ACQAAAAIAAAAYAAAAAnQABuWImuWImnNxAH4ABgAAABdzcQB+AAkAAAACAAAAFwAAAAN0AAbmiJDkuoZzcQB+AAYAAAAWc3EAfgAJAAAAAgAAABYAAAACdAAG5pu+57uPc3EAfgAGAAAAFXNxAH4ACQAAAAIAAAAVAAAAAnQABuW8gOWni3NxAH4ABgAAABRzcQB+AAkAAAACAAAAFAAAAAJ0AAbmm7TmmK9zcQB+AAYAAAATc3EAfgAJAAAAAgAAABMAAAAEdAAG5YWs5byAc3EAfgAGAAAAEnNxAH4ACQAAAAIAAAASAAAAA3QABuW5tOeahHNxAH4ABgAAABFzcQB+AAkAAAADAAAAEQAAAAN0AAbov5vlhaVzcQB+AAYAAAAQc3EAfgAJAAAAAgAAABAAAAACdAAG5LiO5YW2c3EAfgAGAAAAD3NxAH4ACQAAAAIAAAAPAAAAAnQABuS6uuWRmHNxAH4ABgAAAA5zcQB+AAkAAAACAAAADgAAAAV0AAblm6DkuLpzcQB+AAYAAAANc3EAfgAJAAAAAwAAAA0AAAAGdAAG5bCx5pivc3EAfgAGAAAADHNxAH4ACQAAAAIAAAAMAAAAA3QABuihjOWKqHNxAH4ABgAAAAtzcQB+AAkAAAACAAAACwAAAAJ0AAboi4/lroFzcQB+AAYAAAAKc3EAfgAJAAAAAgAAAAoAAAACdAAG5Y675bm0c3EAfgAGAAAACXNxAH4ACQAAAAIAAAAJAAAAAnQABuWmguaenHNxAH4ABgAAAAhzcQB+AAkAAAACAAAACAAAAAJ0AAbooajnpLpzcQB+AAYAAAAHc3EAfgAJAAAAAgAAAAcAAAACdAAG6ICF5Zyoc3EAfgAGAAAABnNxAH4ACQAAAAMAAAAGAAAAA3QABuWPr+S7pXNxAH4ABgAAAAVzcQB+AAkAAAACAAAABQAAAAN0AAbov5vooYxzcQB+AAYAAAAEc3EAfgAJAAAAAgAAAAQAAAACdAAG6YCa6L+Hc3EAfgAGAAAAA3NxAH4ACQAAAAIAAAADAAAAA3QABuWNoOmihnNxAH4ABgAAAAJzcQB+AAkAAAACAAAAAgAAAAJ0AAblronlhahzcQB+AAYAAAABc3EAfgAJAAAAAgAAAAEAAAADdAAG5bel5L2cc3EAfgAGAAAAAHNxAH4ACQAAAAIAAAAAAAAAAnQABui/keaXpXhzcQB+AAQ/QAAAAAAAR3cIAAAAXwAAACxxAH4ATnEAfgBNcQB+AF1xAH4AXHEAfgA8cQB+ADtxAH4AQnEAfgBBcQB+AC1xAH4ALHEAfgAYcQB+ABdxAH4Ah3EAfgCGcQB+AGxxAH4Aa3EAfgAScQB+ABFxAH4AhHEAfgCDcQB+AGBxAH4AX3EAfgAkcQB+ACNxAH4ARXEAfgBEcQB+AFFxAH4AUHEAfgBmcQB+AGVxAH4AVHEAfgBTcQB+ABtxAH4AGnEAfgBXcQB+AFZxAH4AdXEAfgB0cQB+AFpxAH4AWXEAfgBpcQB+AGhxAH4AjXEAfgCMcQB+AH5xAH4AfXEAfgA2cQB+ADVxAH4AinEAfgCJcQB+AAxxAH4AC3EAfgBIcQB+AEdxAH4AFXEAfgAUcQB+AHJxAH4AcXEAfgAzcQB+ADJxAH4AHnEAfgAdcQB+AEtxAH4ASnEAfgA5cQB+ADhxAH4AP3EAfgA+cQB+AIFxAH4AgHEAfgB4cQB+AHdxAH4AKnEAfgApcQB+AHtxAH4AenEAfgAPcQB+AA5xAH4Ab3EAfgBucQB+AGNxAH4AYnEAfgAwcQB+AC9xAH4AIXEAfgAgcQB+ACdxAH4AJnhzcgARamF2YS51dGlsLkhhc2hTZXS6RIWVlri3NAMAAHhwdwwAAAAAP0AAAAAAAAB4c3IAHWRlLmJ3YWxkdm9nZWwubGlibGluZWFyLk1vZGVspmeC7z9HwY4CAAZEAARiaWFzSQAIbnJfY2xhc3NJAApucl9mZWF0dXJlWwAFbGFiZWx0AAJbSUwACnNvbHZlclR5cGV0ACRMZGUvYndhbGR2b2dlbC9saWJsaW5lYXIvU29sdmVyVHlwZTtbAAF3dAACW0R4cAAAAAAAAAAAAAAABAAAACt1cgACW0lNumAmduqypQIAAHhwAAAABAAAAAAAAAABAAAAAgAAAAN+cgAiZGUuYndhbGR2b2dlbC5saWJsaW5lYXIuU29sdmVyVHlwZQAAAAAAAAAAEgAAeHIADmphdmEubGFuZy5FbnVtAAAAAAAAAAASAAB4cHQABkwxUl9MUnVyAAJbRD6mjBSrY1oeAgAAeHAAAACwAAAAAAAAAAC/4bM9RAZyAgAAAAAAAAAAAAAAAAAAAABAG7FoZoqdDL/hfqdo9ZMMwAUABAIWKs0AAAAAAAAAAAAAAAAAAAAAwBZEkInX3LTAHeMep0K5vwAAAAAAAAAAQBOdZNGluv0AAAAAAAAAAMATJa0I2NS2v+a5QkxYLZAAAAAAAAAAAAAAAAAAAAAAv/fpURSIdwjAED2NOXOIdwAAAAAAAAAAwBgn1cxXhpJAAkV/doPmwL/qZmjkxaLkAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAC/0xTtJgJ6YAAAAAAAAAAAwAB9HD9N4P8AAAAAAAAAAL//Y1CdrU22AAAAAAAAAAAAAAAAAAAAAL/z7KA+cR1vwAoHDF+kCsEAAAAAAAAAAMAC8RQT1pO2AAAAAAAAAADAIO7OnNdYVAAAAAAAAAAAwAPbRkBsfkcAAAAAAAAAAAAAAAAAAAAAwBApPSv2ojQ/yy8V5AshSAAAAAAAAAAAwABBzRqjZN2/++mVyCRx1QAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMAZIVxBXTOaQAC+kORHHGLAHOXrMx/i6z/77eRv2wt9AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAC/8ZCeA1xIOgAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAv74tffTHt70AAAAAAAAAAEAMG1nqycybv9IkW8Mj8THAFzGKhJx9xkAjekz0iSAGAAAAAAAAAADAA2k/xzFpGgAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAL/2p1Gzcm84P/sacw/THbkAAAAAAAAAAMAOK09A6UuCAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAv6yxtweM3uwAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAL/3FNkKNHvlP8Cgd9JtoIsAAAAAAAAAAMAPd54HxhnDAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAC/+jI11k7RlgAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAL2lLj8dlj3HAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAADAF0dZmGkjMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMAKJdDrzymIwAlXlq1jg1gAAAAAAAAAAMAYfwf1ctA0QBY49tUCG/4AAAAAAAAAAD/hQt3LuX0CAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA/4EpHPDGpnMAaXY14eDO1AAAAAAAAAAC/uIrIR4z26L/JTcZr50h6QBHlEj/wiZwAAAAAAAAAAAAAAAAAAAAAv9nE6J21IvwAAAAAAAAAAD/x1VRZ5sQ4wBI7mVZ7JTTAFP+oTqazIEAYsJYAE/DiAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAD/jYiVwx3zWwBEkWA2ut63AFfAUdetFdQAAAAAAAAAAQBBqmjitZB/ADvv5Q79IRMAhIskBWoNJAAAAAAAAAAA/0fwEjyIlsg==");/* * 上面三行代码等价于设置如下参数,然后初始化并运行: *   String defaultArguments = "" +  "-l  my_novel_model"  // 设置您的训练好的模型的路径,这里的路径只是给出样例 ;  classifier.Init(defaultArguments.split(" ")); classifier.runAsLinearBigramChineseTextClassifier(); *  */// 之后就可以使用分类器进行分类String text = "北京商报讯 (记者 吴文治 郭白玉)艾媒咨询近日发布的《2016-2017中国跨境电商市场研究报告》称,预计中国2018年跨境电商交易规模将达到8.8万亿元。";int topN = 2;  // 保留最有可能的2个结果ClassifyResult[] result = classifier.classifyText(text, topN); for (int i = 0; i < topN; ++i) {// 输出分类编号,分类名称,以及概率值。System.out.println(result[i].label + "\t" + classifier.getCategoryName(result[i].label) + "\t" + result[i].prob); }}

thuct中的分词是二字串方式,“上海杨浦”会被分隔成    上海 海杨 杨浦    ,如果想要用其他分词方式可以改写。二字串的好处也许就是不受任何分词方式的影响,虽然这中分词方式对人来说没有什么意义,但是这个客观的计算某个词汇在文本中的重要程度,最终筛选出来的词汇大多还是正常的。



0 0