python使用第三方函数库httplib写简单网页爬虫

1.首先在下面链接下载httplib2模块,解压到某一个文件夹下,来配置好py的环境和httplib。

git下载:https://codeload.github.com/jcgregorio/httplib2/zip/master

本地下载:http://www.mrliangqi.com/pack/httplib2-master.zip

2.配置好python的系统环境变量。

3.dos下安装httplib2模块,进入httplib2的解压目录下,运行 python setup.py install 安装即可。(Linux下安装使用easy_install httplib2)

D:\Python27\httplib2>setup.py install
running install
running bdist_egg
running egg_info

..........

Installed d:\python27\lib\site-packages\httplib2-0.9-py2.7.egg
Processing dependencies for httplib2==0.9
Finished processing dependencies for httplib2==0.9

安装成功~

爬虫案例:

打开一个网页的代码为:

webbrowser.open_new_tab('网址')

有于打开一定数量的网页后,内存会增加,我们需要定时关掉浏览器,关掉浏览器的代码如下(关掉Chrome为例):

os.system('taskkill /F /IM chrome.exe'

同时要使用到while循环来循环操作,达到刷博客的目的。具体的代码仿照了智普教育学习视频,感谢智普教育,完整的代码如下:

  1. import webbrowser as web  
  2. import time  
  3. import os  
  4. import random  
  5. count = random.randint(5,7)  
  6. j=0  
  7. while j<=count:  
  8.     i=0  
  9.     while i<=8 :  
  10.         web.open_new_tab('http://www.mrliangqi.com/?p=138')  #网址自己填入  
  11.         i=i+1  
  12.         time.sleep(0.8)  
  13.     else:  
  14.         os.system('taskkill /F /IM chrome.exe')  
  15.         print j,'time webbrower closed'  
  16.     j=j+1  

最后把上面脚本保存为.py脚本执行即可!

 

 


发表评论

登录 后发表评论.