python网络爬虫学习笔记1(互联网和HTTP,HTML)
发布日期:2022-09-27 12:03:58 浏览次数:1 分类:技术文章

本文共 1257 字,大约阅读时间需要 4 分钟。

互联网与HTTP

互联网或者叫因特网(internet),这些网络以一组标准的网络协议族相连,连接全世界几十亿的设备,形成逻辑上的单一巨大国际网络。

互联网并不等同于万维网(WWW),万维网只是一个超文本相互链接而成的全球性系统,而且是互联网所能提供的服务范围之一。

HTTP是一个客户端(用户)和服务器端(网站)之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫等,客户端可以向服务器上的指定端口发起HTTP请求。这个客户端被称为用户代理(user agent)。应答服务器上存储着一些资源,比如HTML文件和图像。这个应答服务器称为源服务器(orgin server)。

HTTP请求方式(8种)

get:对应select操作,用来获取数据的,只是用来查询数据,不对服务器的数据做任何的修改,新增,删除等操作。

post :数据发送到服务器以创建或更新资源,侧重于更新数据,对应update操作。

put:数据发送到服务器以创建或更新资源,侧重于创建数据,对应操作。

delete:对应delete操作,用来删除指定的资源,它会删除URI给出的目标资源的所有当前内容。

options请求:用来描述了目标资源的通信选项,返回服务器针对特定资源所支持的HTTP请求方法,也可以利用向web服务器发送‘*’的请求来测试服务器的功能性。

head请求:HEAD方法与GET方法相同,但没有响应体,仅传输状态行和标题部分。这对于恢复相应头部编写的元数据非常有用,而无需传输整个内容。

connect请求:CONNECT方法用来建立到给定URI标识的服务器的隧道;它通过简单的TCP / IP隧道更改请求连接,通常实使用解码的HTTP代理来进行SSL编码的通信(HTTPS)。

trace方法:用于沿着目标资源的路径执行消息环回测试;它回应收到的请求,以便客户可以看到中间服务器进行了哪些(假设任何)进度或增量。

HTML

HTML(超文本标记语言),是一种用于创建网页标签的准标记语言。一个HTML元素的一般形式为:<标签 属性1=“值1”    属性2=“值2”>内容</标签>。一个HTML元素的名称即为标签使用的名称。结束标签的名称前面有一个斜杠“/”,空元素不需要也不允许有结束标签。如果元素属性未标明,则使用其默认值。

HTML文档规范

1、所有的标签必须小写

2、所有的属性必须用双引号括起来
3、所有标签必须闭合
4、img 必须要加 alt 属性(对图片的描述)

HTML示例

1.HTML文档头部标签

    Title

2.HTML标题由<h1>到<h6>6个标签,字体由大到小递减。

标题1

标题2

标题3

标题4

标题5
标题6

3.段落:<p>

第一段

第二段

4.换行:<br>

<br>和<p>之间的差异在于,<br>换行但不改变页面的语义结构,而<p>元素形成的页面内容单独成段。

这是一个

使用br
的段落

5.链接:<a>

href属性包含URL的地址

一个指向百度的链接

6.注释:

转载地址:https://blog.csdn.net/cg_sss/article/details/125633399 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:Python网络爬虫框架 Scrapy简介
下一篇:python网络爬虫学习笔记1(BeautifulSoup)

发表评论

最新留言

不错!
[***.144.177.141]2024年04月05日 17时32分27秒