当前位置:博客首页 > Python > 正文

批量过滤老域名轮子的使用心得

作者: Jarvan 分类: Python 发布时间: 2020-01-14 17:29 百度已收录

环境:python2.7
模块:pip install baidu-aip

1)需要把聚名网下载的juming.txt放在跟两个py文件同一个文件夹
2)第2个py文件,第217行的pool 不能设置太高,如果服务器配置低就卡死了
3)执行的时候报错:https://ai.baidu.com/forum/topic/show/957019,解决方案:进入base.py 将报错的第14行注释掉
4)py文件执行
命令1:python 文件1.py juming.txt

注:当第一个py文件执行完毕时,可以从获得的数据库里导出全部数据CSV格式,然后进行如下两步:

1)使用len()计算快照链接总长度,并按照降序排序,对长度特别长的链接进行删除(因为大部分情况是菠菜或色情类的垃圾页面)

2)对历史快照链接长度为0的进行删除,因为是无历史快照说明没建站记录,不符合老域名的前提(此步骤可以不操作,可能轮子里有)

命令2:python 文件2.py juming.txt

发表评论