python爬虫(gzip新浪微博为例)
发布日期:2021-06-29 12:30:13
浏览次数:3
分类:技术文章
本文共 523 字,大约阅读时间需要 1 分钟。
# coding=utf-8import urllib.requestimport gzipurl = 'http://news.sina.com.cn/'def getUrlContent(url): # 返回页面内容 req = urllib.request.Request(url) req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE") data = urllib.request.urlopen(req).read() # 解码 try: html = gzip.decompress(data).decode("utf-8") except: html = data.decode("utf-8") return htmlprint(getUrlContent(url))
转载地址:https://bupt-xbz.blog.csdn.net/article/details/78936702 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
逛到本站,mark一下
[***.202.152.39]2024年04月20日 07时34分29秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
CSS3&JavaScript 瀑布流
2019-04-29
tomcat配置JVM
2019-04-29
Oracle获取连接超级慢的问题
2019-04-29
关于HashMap初始化容量,设置多少合适。
2019-04-29
MYSQL 自定义函数
2019-04-29
早鸟票倒计时3天 | 2019携程技术峰会,11月9日上海(含福利)
2019-04-29
干货 | 微信小程序一键转百度小程序,携程火车票团队是这样做的
2019-04-29
沙龙回顾 | 移动互联网下的测试工程效率提升,含PPT和视频
2019-04-29
程里人 | 携程程序猿/媛的1024
2019-04-29
常见的字符集编码
2019-04-29
前端(一):字符与语义标签
2019-04-29
前端(二):CSS语法与选择器
2019-04-29
前端(三):样式继承与其他概念
2019-04-29
前端(四):样式继承与其他概念
2019-04-29
前端小案例:田径场
2019-04-29
前端(五):浮动
2019-04-29
前端(六):高度塌陷与BFC
2019-04-29
C++ 多线程
2019-04-29
C++ inline 内联函数
2019-04-29
动态规划问题汇总
2019-04-29