当前位置:博客首页 > Python > 正文

【Python工具】30万关键词提取疑问词只需2秒,效率高到飞起!

作者: Jarvan 分类: Python 发布时间: 2019-04-17 18:29 百度已收录

Brooks老师今天在群里分享的python代码,布鲁老师目前供职于新浪爱问,新浪爱问是以问答内容为主,他今天分享的python编写的小工具作用主要是用于关键词筛选分类,可以快速提取具有某类特征的词,我测试了下,确实很好用。

我测试的词量不多,600多个词,基本上1秒钟就分好了(目前用的主要是提取疑问词用于做问答),效果如下图:

疑问词提取结果

代码如下:

# -*- coding: utf-8 -*-
import sys
# 用法示例:python3 filter_kw.py 关键词.txt 结果.txt
# 获取命令行参数,分别获取关键词文件和结果文件名
kwfile, retfile = sys.argv[-2:]

filters = {'如何','怎么','哪','多少','什么','多久','吗','能'}
ret = open(retfile, mode='w', encoding='utf-8')
with open(kwfile, encoding='utf-8') as f:
    for line in f:
        for w in filters:
            if w in line:
                ret.write(line)
                break
        ret.flush()
ret.close()

【使用注意】 关键词的txt文档一定要是utf-8格式的,而不是windows默认的ANSI,否则运行会报错

发表评论