python网络爬虫学习笔记1(BeautifulSoup)
发布日期:2022-09-27 12:03:12 浏览次数:1 分类:技术文章

本文共 1064 字,大约阅读时间需要 3 分钟。

BeautifulSoup是一个很流行的一个python库,是XML和HTML的解析的利器,其中内部提供了定位

内容的人性化接口,可以用来取代繁杂的正则表达式。

安装库

BeautifulSoup并不是python自带的库,因此需要使用pip安装

pip install beautifulsoups4或者pip install bs4

Linux用户可以使用apt-get安装

apt-get install Python-bs4

主要作用

BeautifulSoup中最主要的工具就是BeautifulSoup(对象),这个对象指的是一个HTML文档的所有内容。

基本代码:

import bs4,requestsfrom bs4 import BeautifulSoupht = requests.get('https://www.baidu.com/')bs1 = BeautifulSoup(ht.content)print(bs1.prettify())print('title')print(bs1.title)print('title.name')print(bs1.title.name)print('bs1.title.parent.name')print(bs1.title.parent.name)print('find all a')print(bs1.find_all('a'))print('text of all "h2"')for one in bs1.find_all('h2'):    print(one.text)

运行结果

 上述代码运行的时候会产生一个警告:

这意味着程序中没有指定BeautifulSoup的解析器,解析器的指定需要将其中的一句代码替换:

bs1 = BeautifulSoup(ht.content,'html.parser')

BeautifulSoup本身就支持HTML

如果想安装其他的第三方解析器:比如最多的lxml

apt-get install Python-lxmlesay_install lxmlpip install lxml

对应的使用方法

bs1 = BeautifulSoup(ht.content,'html.parser')bs1 = BeautifulSoup(ht.content,'lxml')bs1 = BeautifulSoup(ht.content,'xml')

除此之外还可以支持HTML5标准,主要使用的还是lxml

转载地址:https://blog.csdn.net/cg_sss/article/details/125715040 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:python网络爬虫学习笔记1(互联网和HTTP,HTML)
下一篇:Python网络爬虫关于某牙直播的项目(上)

发表评论

最新留言

很好
[***.229.124.182]2024年04月11日 14时33分05秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

Flink在美团的应用与实践听课笔记 2019-04-27
Java多线程的11种创建方式以及纠正网上流传很久的一个谬误 2019-04-27
JDK源码研究Jstack,JMap,threaddump,dumpheap的原理 2019-04-27
Java使用字节码和汇编语言同步分析volatile,synchronized的底层实现 2019-04-27
javac编译原理和javac命令行的使用 2019-04-27
Unity使用UnityWebRequest实现本地日志上传到web服务器 2019-04-27
Unity使用RenderTexture实现裁切3D模型 2019-04-27
美术和程序吵架,原来是资源序列化格式设置不统一 2019-04-27
Unity iOS接SDK,定制UnityAppController 2019-04-27
Unity iOS接SDK前先要了解的知识(Objective-C) 2019-04-27
python遇到了‘module‘ object has no attribute ‘socket‘问题,大概率是这个原因 2019-04-27
记一次iOS闪退问题的定位:NSLog闪退 2019-04-27
Unity打开照相机与打开本地相册然后在Unity中显示照片(Android与iOS) 2019-04-27
无需接入SDK即可在Unity中获取经纬度(Android/iOS),告诉我你的坐标 2019-04-27
Unity获取系统信息SystemInfo(CPU、显卡、操作系统等信息) 2019-04-27
Unity中获取物体的尺寸(size)的三种方法 2019-04-27
Unity中的关节组件和绳子效果的实现 2019-04-27
Unity可视化编程插件: Bolt,可以像UE4的蓝图那样啦 2019-04-27
Android使用adb logcat时日志中文乱码问题,使用chcp 65001设置编码即可 2019-04-27
Android的.dex、.odex与.oat文件扫盲 2019-04-27