python网络爬虫学习笔记1（互联网和HTTP，HTML）-白红宇的个人博客

发布日期：2022-09-27 12:03:58 浏览次数：1 分类：技术文章

本文共 1257 字，大约阅读时间需要 4 分钟。

互联网与HTTP

互联网或者叫因特网（internet），这些网络以一组标准的网络协议族相连，连接全世界几十亿的设备，形成逻辑上的单一巨大国际网络。

互联网并不等同于万维网（WWW），万维网只是一个超文本相互链接而成的全球性系统，而且是互联网所能提供的服务范围之一。

HTTP是一个客户端（用户）和服务器端（网站）之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫等，客户端可以向服务器上的指定端口发起HTTP请求。这个客户端被称为用户代理（user agent）。应答服务器上存储着一些资源，比如HTML文件和图像。这个应答服务器称为源服务器（orgin server）。

HTTP请求方式（8种）

get：对应select操作，用来获取数据的，只是用来查询数据，不对服务器的数据做任何的修改，新增，删除等操作。

post ：数据发送到服务器以创建或更新资源，侧重于更新数据，对应update操作。

put：数据发送到服务器以创建或更新资源，侧重于创建数据，对应操作。

delete：对应delete操作，用来删除指定的资源，它会删除URI给出的目标资源的所有当前内容。

options请求：用来描述了目标资源的通信选项，返回服务器针对特定资源所支持的HTTP请求方法，也可以利用向web服务器发送‘*’的请求来测试服务器的功能性。

head请求：HEAD方法与GET方法相同，但没有响应体，仅传输状态行和标题部分。这对于恢复相应头部编写的元数据非常有用，而无需传输整个内容。

connect请求：CONNECT方法用来建立到给定URI标识的服务器的隧道；它通过简单的TCP / IP隧道更改请求连接，通常实使用解码的HTTP代理来进行SSL编码的通信（HTTPS）。

trace方法：用于沿着目标资源的路径执行消息环回测试；它回应收到的请求，以便客户可以看到中间服务器进行了哪些（假设任何）进度或增量。

HTML

HTML（超文本标记语言），是一种用于创建网页标签的准标记语言。一个HTML元素的一般形式为：<标签属性1=“值1” 属性2=“值2”>内容</标签>。一个HTML元素的名称即为标签使用的名称。结束标签的名称前面有一个斜杠“/”，空元素不需要也不允许有结束标签。如果元素属性未标明，则使用其默认值。

HTML文档规范

1、所有的标签必须小写

2、所有的属性必须用双引号括起来

3、所有标签必须闭合

4、img 必须要加 alt 属性(对图片的描述)

HTML示例

1.HTML文档头部标签

    Title

2.HTML标题由<h1>到<h6>6个标签，字体由大到小递减。

标题1
标题2
标题3
标题4
标题5
标题6

3.段落：<p>

第一段

第二段

4.换行:<br>

<br>和<p>之间的差异在于，<br>换行但不改变页面的语义结构，而<p>元素形成的页面内容单独成段。

这是一个

使用br

的段落

5.链接：<a>

href属性包含URL的地址

一个指向百度的链接

6.注释：

转载地址：https://blog.csdn.net/cg_sss/article/details/125633399 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：Python网络爬虫框架 Scrapy简介

下一篇：python网络爬虫学习笔记1（BeautifulSoup）

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！