Python爬虫002浏览器的模拟Header属性
发布日期:2021-06-21 18:57:20 浏览次数:24 分类:技术文章

本文共 1335 字,大约阅读时间需要 4 分钟。

自学笔记002可以使用pycharm直接作为python文件,运行查看author = ‘xiaoj’

’’‘

有的时候,我们无法爬去一些网页,会出现403错误,因为这些网页为了防止别人恶意采集器信息所以进行了一些反爬虫的设置。
那么如果我们想爬取这些网页的信息,该怎么办呢?
————可以设置一些Headers信息,模拟成浏览器去访问这些网址,此时,就能够解决这个问题
’’’
#利用上节课的只是爬取CSDN博客的内容:
import urllib.request
url = “”
file = urllib.request.urlopen(url)
print(file)
#此时返回结果会报403Forbidden错误,接下来我们讲解两种让爬虫模拟成浏览器访问网页的设置方法
‘’‘
方法1:使用build_opener()修改报头
由于urlopen()不支持一些HTTP的高级功能,所以,我们如果要修改报头,可以使用urllib.request.build_opener()进行
比如:
’’’
url = ""
header = (“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.84 Safari/537.36”)
opener = urllib.request.build_opener()#创建build_opener操作对象
opener.addheaders = [header]#添加报头信息
data = opener.open(url).read()#接收返回信息,并读取
#此时已经模仿为浏览器去打开,我们保存爬到的信息
fhandle = open(“F:/python/part4/3.html”,“wb”)
a = fhandle.write(data)#print(a)查看写入的字节数
fhandle.close()
‘’‘
方法2:使用add_header()添加报头
除了上述方法,还可以使用urllib.request.Request()下的add_header()实现浏览器的模拟
’’'
import urllib.request
url = "
req = urllib.request.Request(url)#创建请求对象
req.add_header(“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.84 Safari/537.36”)
data = urllib.request.urlopen(req).read()
data = data.decode(“utf-8”)#转码,将原始的数据以utf-8编码的形式转换出来
print(data)

 

更多的软件测试视频资料,都在柠檬班的软件测试技术交流群哦~939885326与群内软测dalao谈笑风生

转载地址:https://blog.csdn.net/ningmengban/article/details/75547333 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:如何利用Jmeter做分布式压力测试?
下一篇:APP测试与WEB测试的区别?

发表评论

最新留言

路过,博主的博客真漂亮。。
[***.116.15.85]2024年04月15日 18时56分07秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章