当前位置:博客首页 > 备忘录 > 正文

备忘录

作者: Jarvan 分类: 备忘录 发布时间: 2019-07-17 10:27 百度已收录

1)如何批量下载免费的百度文库文档?

可以通过火车头采集url+冰点下载的批量下载功能,快速下载百度文库文档的pdf及txt格式,但实际操作中发现一个问题,txt文档里的内容并不全,可能是文字识别的问题

2)如何批量量去重相似或完全相同的照片?

推荐一款软件DuplicatePhotoFinder,我做了下测试,速度很快,很便捷,可以高效去重:
http://www.newrain.cn/app/info/1#C-playtour

3)火车头采集因请求资源频繁而受限无法采集到内容(尤其是图片),该如何处理?

可以考虑使用谷歌浏览器xpath helper插件获取图片的xpath,并利用火车采集器的xpath内容提取方式,提取图片链接,然后导入到excel,通过数据分类获得所有的图片链接地址,然后利用迅雷进行统一下载

4)火车采集异常处理的一些个人经验

如果网址采集测试的时候无法采集列表页下面的一级链接,一般情况下修改下cookie就可以搞定。

如果从实时监控中发现采集的数据为空,且持续如此,可以考虑使用代理IP,目前我用的阿布云的动态代理IP,就不再出现上述问题

5) 如何把分布在不同列的单元格按顺序放在同一列?

可以利用notepad++的正则表达式的替换功能,将单元格与单元格之间的分隔符替换为换行\n,然后再复制到excel,如果有空格,则可以使用数据去重处理

6)织梦网站重新安装提示:Internal Server Error

删除掉根目录下的.htaccess文件

发表评论