url:uniform resource identifier 统一资源标识符
uri:uniform resource Locator 统一资源定位符
在目前互联网中,几乎所有的uri都是Url
超文本 hypertext 网页源代码HTML F12-Elements
HTTP: 超文本传输协议 保证高效准确的传送超文本文档
HTTPS:加密版的HTTP 加入了SSl层
作用:保证传输安全 确认真实性
HTTP的请求过程:
name:请求名称 一般是URL的最后一部分内容
status:状态码 200表示成功
Type:请求的文档类型
initiator:标记是哪个对象发起的请求
Size:从服务器下载资源的大小。从缓存中取得则为:from cache
Time:总时间
waterfall:可视化瀑布流
General:
Request URL/method 请求的url和方法
status Code 响应状态码
Remote address:远程服务器地址与端口
referrer Policy:referrer判别策略
Response Header:(响应头):
Data:响应产生时间
Last-Modified:指定资源最后修改时间
content-encoding:响应内容的编码
server:包含服务器的相关信息
content-type:指定返回的数据类型是什么
set-cookie:设置cookies
expires:指定响应过期时间。保质期内可以直接从缓存中加载
request Header:(请求头)
服务器会根据请求头的方法判断请求是否合法,从而响应。
Accept:请求报头域,制定客户端可接受哪些类型信息
Accept-language:指定客户端接受语言类型
Accept-encoding:指定客户端接受编码类型
Host: 指定请求资源主机的IP与端口号
cookie:跟踪辨认用户
Referer:表示请求从那个页面发过来的
USER-Agent:可识别用户浏览器,系统。可用这条信息伪装成浏览器
content-type:表示具体请求的媒体类型信息
在做爬虫时,我们主要通过响应体得到网页源代码,json数据。做相应提取。
网页基础:
网页分为三个部分:HTML,CSS,Javascript。
HTML:超文本标记语言,网页的基础框架就是HTML。
css:让网页更加美观。
javascript:使得浏览器与用户之间存在实时,动态,交互的页面功能。
<!DOCTYPE HTML>
<html>
<head>
<meta charset='UTF-8'>
<title>this is a demo</title>
</head>
<body>
<div id='container'>
<id class='wrapper'>
<h2 class ='title'><helloWORLD</h2>
<p class='text'>Hello,this is a paragraph.</p>