Python爬虫002浏览器的模拟Header属性
发布日期:2021-06-21 18:57:20
浏览次数:24
分类:技术文章
本文共 1335 字,大约阅读时间需要 4 分钟。
自学笔记002可以使用pycharm直接作为python文件,运行查看author = ‘xiaoj’
’’‘
有的时候,我们无法爬去一些网页,会出现403错误,因为这些网页为了防止别人恶意采集器信息所以进行了一些反爬虫的设置。 那么如果我们想爬取这些网页的信息,该怎么办呢? ————可以设置一些Headers信息,模拟成浏览器去访问这些网址,此时,就能够解决这个问题 ’’’ #利用上节课的只是爬取CSDN博客的内容: import urllib.request url = “” file = urllib.request.urlopen(url) print(file) #此时返回结果会报403Forbidden错误,接下来我们讲解两种让爬虫模拟成浏览器访问网页的设置方法 ‘’‘ 方法1:使用build_opener()修改报头 由于urlopen()不支持一些HTTP的高级功能,所以,我们如果要修改报头,可以使用urllib.request.build_opener()进行 比如: ’’’ url = "" header = (“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.84 Safari/537.36”) opener = urllib.request.build_opener()#创建build_opener操作对象 opener.addheaders = [header]#添加报头信息 data = opener.open(url).read()#接收返回信息,并读取 #此时已经模仿为浏览器去打开,我们保存爬到的信息 fhandle = open(“F:/python/part4/3.html”,“wb”) a = fhandle.write(data)#print(a)查看写入的字节数 fhandle.close() ‘’‘ 方法2:使用add_header()添加报头 除了上述方法,还可以使用urllib.request.Request()下的add_header()实现浏览器的模拟 ’’' import urllib.request url = " req = urllib.request.Request(url)#创建请求对象 req.add_header(“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.84 Safari/537.36”) data = urllib.request.urlopen(req).read() data = data.decode(“utf-8”)#转码,将原始的数据以utf-8编码的形式转换出来 print(data)
更多的软件测试视频资料,都在柠檬班的软件测试技术交流群哦~群939885326与群内软测dalao谈笑风生
转载地址:https://blog.csdn.net/ningmengban/article/details/75547333 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
路过,博主的博客真漂亮。。
[***.116.15.85]2024年04月15日 18时56分07秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
MySQL数据库的详细安装步骤
2019-04-30
python 基础 爬虫音乐资源案例
2019-04-30
python基础爬虫 视频的下载
2019-04-30
python中把图片 或者 数据存储到本地 用csv方式储存
2019-04-30
python中csv格式转换为excle格式
2019-04-30
爬取图片下载保存 例子详解 代码与注释
2019-04-30
python 在安装第三方库时候 怎样使用国内镜像源 实现快速下载
2019-04-30
python 爬取龙岭迷窟视频 对于视频格式m3u8 下载多个ts文件 合并成MP4
2019-04-30
python 爬取百度地图api数据
2019-04-30
MySQL 数据库在dos命令下的基本操作
2019-04-30
MySQL 学习文档 和安装步骤
2019-04-30
在Scrapy中怎样把数据储存到Mysql 或者Redis中
2019-04-30
python 在爬虫中怎样把数据添加到excle样式中
2019-04-30
Scrapy框架介绍和简单创建使用
2019-04-30
python 爬虫中selenium 爬取数据 csv储存思路加代码
2019-04-30
python 爬虫 网易云音乐 抓取
2019-04-30
Django 项目基础的部署步骤流程
2019-04-30