py3爬虫项目

Github repo地址:py_spider
欢迎各路大神在issues里面提供ideas,欢迎fork & star

1、运行环境

  • Windows or Linux
  • Python3.5.2(Python 3.x.x)

2、内置库汇总

  • urllib
  • re,os,time
  • json

3、第三方库汇总

  • bs4(BeautifulSoup)
  • requests
  • selenium
  • jieba
  • wordcloud
  • matplotlib
  • scipy
  • snownlp
  • xlwt
  • xlrd
  • [updating…]

4、爬虫说明

5、留坑

  • 多线程/进程(解决爬虫太慢)
  • Python编程技巧
  • [updating…]