0%

[Python]初识网络爬虫

嗯,是跟着mooc的视频学的。

觉得看完一部分就该记下来自己学了啥。

好啦,这是魔法师成长日记的第一篇文章~(●ˇ∀ˇ●)

环境准备[Enviornments]

  1. 安装python3
  2. 安装pip
  3. 安装requests库

安装requests库(cmd命令行下):

pip install requests

是不是很简单??o(* ̄▽ ̄ *)ブ

Try to do

先来拿百度试试手吧~
首先打开python的ide:

1
2
3
4
import requests
r = requests.get("http://www.baidu.com")
r.encoding = r.apparent_encoding
r.text

好啦,这时候你会看到一堆数据显示在你的窗口上~
像这样:
example

呐,那些数据就是你从百度首页上爬下来的东东啦~
是你第一个手动完成的最简单的一个爬虫哦~(●ˇ∀ˇ●)

pride

Go forward

不过呢,有时候还是会碰见一些无法访问网页的情况吧?这时候我们怎么处理呢?
我们可以在cmd中输出 r.status_code 的值来看,如果返回值不是200的话,意味着你访问失败啦。

但是,那是在命令行中的办法,如果在程序中,我们该肿么办?
可以这样:

1
2
3
4
5
6
7
8
9
10
11
12
13
import requests
def GetHtmlText(url):
try:
r = requests.get(url,timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"

if __name__ == '__main__':
url = "http://www.baidu.com"
print(GetHtmlText(url))

(当然啦,一般 exception 还是要精准捕获异常的,这里是简单的示范啦 )

如果你用的是vscode的话,且恰好安装了python插件的话,直接右键 Run Python File in Terminal 就可以看到运行结果咯~是不是发现跟第一个例子中输出的数据是一样的呀?

End

现在,给出requests库的常用的六个基础方法吧~

1
2
3
4
5
6
7
requests.request()
requests.get()
requests.head()
requests.post()
requests.patch()
requests.put()
requests.delete()

是不是很好奇这些命令都能做些什么呢?去翻翻看requests的文档吧~

好啦,这就是本篇文章的全部内容啦~感谢你的阅读~

See you then~

再见

------ 本文结束 ------