Wordpress themes are available for download at wordpress-related website.

IT mmpower on 19 May 2007 05:49 am

【分享】中英文混合停用词表 (stop words list)

网上搜索了半天找到了一些但都不是很满意,于是干脆自己根据词性加手工筛选,再加上英文的还有网上找到的, 合在一起作了一个新的stopwords表。

有需要的朋友可以从这里下载:

http://www.smartpeer.net/index.php?p=41

注意这是utf-8编码的,下载后根据自己的需要转成gbk/big5或其他编码。

现在海归网的“相关主题”功能用的就是这个 stopwords 文件。

6 Responses to “【分享】中英文混合停用词表 (stop words list)”

  1. on 19 May 2007 at 9:12 pm 1.benfangd said …

    标题:谢谢mmpower.顺便问一下,关联性的功能有没有open source的code?

  2. on 20 May 2007 at 2:13 pm 2.SuanNiBaiRou said …

    标题:

    有几次,上不了龟网,给我的MESSAGE是个 SELECT CERTAIN POSTS FROM XXX。SUANNI没干过网络活,想想:每个POSTS后的相关几篇文章也是这样找出来的吗?

    可能是。如果是,那你这个STOP LIST这么长,怎么能这么快呢?
    你想啊:
    1先将题目和LIST比较,不是STOP LIST里的都放到KEY里边。
    这会剩下许多字,组成有可能是看起来不MAKE SENSE的一句KEY
    2。再用这个KEY在所有的旧的POST题目里找。

    问题:
    1只有一个KEY吗?如果是,那MATCH不到什么呀?因为这个KEY肯定太独特了。
    2这么快,你的题目是怎么存储的?

    签名:别嫌我烦,我知道我烦。

  3. on 22 May 2007 at 8:05 am 3.mmpower said …

    标题:可以参考一下lucene, sphinx等open source全文检索引擎

  4. on 22 May 2007 at 8:10 am 4.mmpower said …

    标题:stop list 存在一个搜索树上

    binary search的话很快, log(n)嘛

    具体不是象你想象的,而是:
    -- 先分词
    -- 过滤 stop words
    – 每个词都做匹配,找出匹配度最高的主题。

    题目有全文索引,所以快。

  5. on 18 Jul 2007 at 11:30 am 5.qhlonline said …

    标题:没法下载

    怎么下不了呢,IE显示无法显示网页。

  6. on 18 Jul 2007 at 11:39 am 6.mmpower said …

    标题:我的网站所在的hosting ip被国内封了。

Trackback This Post | Subscribe to the comments through RSS Feed

Leave a Reply

校验码:  

Buy movie . Why buy movies at the store while you can download complete movies at our home? You can pay with your credit card. Lowest prices over the Internet.

21 queries in 0.630 seconds.© 2004-2008.   海归博客. RSS Comments RSS