python网络爬虫学习笔记1(BeautifulSoup)
发布日期:2022-09-27 12:03:12
浏览次数:1
分类:技术文章
本文共 1064 字,大约阅读时间需要 3 分钟。
BeautifulSoup是一个很流行的一个python库,是XML和HTML的解析的利器,其中内部提供了定位
内容的人性化接口,可以用来取代繁杂的正则表达式。
安装库
BeautifulSoup并不是python自带的库,因此需要使用pip安装
pip install beautifulsoups4或者pip install bs4
Linux用户可以使用apt-get安装
apt-get install Python-bs4
主要作用
BeautifulSoup中最主要的工具就是BeautifulSoup(对象),这个对象指的是一个HTML文档的所有内容。
基本代码:
import bs4,requestsfrom bs4 import BeautifulSoupht = requests.get('https://www.baidu.com/')bs1 = BeautifulSoup(ht.content)print(bs1.prettify())print('title')print(bs1.title)print('title.name')print(bs1.title.name)print('bs1.title.parent.name')print(bs1.title.parent.name)print('find all a')print(bs1.find_all('a'))print('text of all "h2"')for one in bs1.find_all('h2'): print(one.text)
运行结果:
上述代码运行的时候会产生一个警告:
这意味着程序中没有指定BeautifulSoup的解析器,解析器的指定需要将其中的一句代码替换:
bs1 = BeautifulSoup(ht.content,'html.parser')
BeautifulSoup本身就支持HTML
如果想安装其他的第三方解析器:比如最多的lxml
apt-get install Python-lxmlesay_install lxmlpip install lxml
对应的使用方法
bs1 = BeautifulSoup(ht.content,'html.parser')bs1 = BeautifulSoup(ht.content,'lxml')bs1 = BeautifulSoup(ht.content,'xml')
除此之外还可以支持HTML5标准,主要使用的还是lxml
转载地址:https://blog.csdn.net/cg_sss/article/details/125715040 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
很好
[***.229.124.182]2024年04月11日 14时33分05秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
Flink在美团的应用与实践听课笔记
2019-04-27
Java多线程的11种创建方式以及纠正网上流传很久的一个谬误
2019-04-27
JDK源码研究Jstack,JMap,threaddump,dumpheap的原理
2019-04-27
Java使用字节码和汇编语言同步分析volatile,synchronized的底层实现
2019-04-27
javac编译原理和javac命令行的使用
2019-04-27
Unity使用UnityWebRequest实现本地日志上传到web服务器
2019-04-27
Unity使用RenderTexture实现裁切3D模型
2019-04-27
美术和程序吵架,原来是资源序列化格式设置不统一
2019-04-27
Unity iOS接SDK,定制UnityAppController
2019-04-27
Unity iOS接SDK前先要了解的知识(Objective-C)
2019-04-27
记一次iOS闪退问题的定位:NSLog闪退
2019-04-27
Unity打开照相机与打开本地相册然后在Unity中显示照片(Android与iOS)
2019-04-27
无需接入SDK即可在Unity中获取经纬度(Android/iOS),告诉我你的坐标
2019-04-27
Unity获取系统信息SystemInfo(CPU、显卡、操作系统等信息)
2019-04-27
Unity中获取物体的尺寸(size)的三种方法
2019-04-27
Unity中的关节组件和绳子效果的实现
2019-04-27
Unity可视化编程插件: Bolt,可以像UE4的蓝图那样啦
2019-04-27
Android的.dex、.odex与.oat文件扫盲
2019-04-27