鱼C论坛 › wangyinghan › 日志

wangyinghan

https://fishc.com.cn/?518563

2018716

已有 223 次阅读2018-7-16 21:49

url：uniform resource identifier 统一资源标识符

uri：uniform resource Locator 统一资源定位符

在目前互联网中，几乎所有的uri都是Url

超文本 hypertext 网页源代码HTML F12-Elements

HTTP: 超文本传输协议保证高效准确的传送超文本文档

HTTPS:加密版的HTTP 加入了SSl层

作用：保证传输安全确认真实性

HTTP的请求过程：

name：请求名称一般是URL的最后一部分内容

status：状态码 200表示成功

Type：请求的文档类型

initiator：标记是哪个对象发起的请求

Size：从服务器下载资源的大小。从缓存中取得则为：from cache

Time：总时间

waterfall：可视化瀑布流

General：

Request URL/method 请求的url和方法

status Code 响应状态码

Remote address：远程服务器地址与端口

referrer Policy：referrer判别策略

Response Header:(响应头）：

Data:响应产生时间

Last-Modified：指定资源最后修改时间

content-encoding：响应内容的编码

server：包含服务器的相关信息

content-type：指定返回的数据类型是什么

set-cookie：设置cookies

expires：指定响应过期时间。保质期内可以直接从缓存中加载

request Header:（请求头）

服务器会根据请求头的方法判断请求是否合法，从而响应。

Accept：请求报头域，制定客户端可接受哪些类型信息

Accept-language：指定客户端接受语言类型

Accept-encoding：指定客户端接受编码类型

Host: 指定请求资源主机的IP与端口号

cookie：跟踪辨认用户

Referer：表示请求从那个页面发过来的

USER-Agent：可识别用户浏览器，系统。可用这条信息伪装成浏览器

content-type：表示具体请求的媒体类型信息

在做爬虫时，我们主要通过响应体得到网页源代码，json数据。做相应提取。

网页基础：

网页分为三个部分：HTML,CSS,Javascript。

HTML：超文本标记语言，网页的基础框架就是HTML。

css：让网页更加美观。

javascript：使得浏览器与用户之间存在实时，动态，交互的页面功能。

<!DOCTYPE HTML>

<html>

<head>

</head>

<body>

<p class='text'>Hello,this is a paragraph.</p>

</body>

</html>

开头用DOCTYPE定义了文档类型，最外层是<html>,</html>标签，其内部的<head>,<body>,标签

分别代表网页头跟网页体，他们也需要对应的结束标签。head标签也定义了一些页面的配置和引用

HTml中，所有标签定义的内容都是节点，构成了html dom树。

在css中，使用css选择器来定位节点，如将div中的节点id为container，可以表示为#container。

如果我们要选择class为warpper的节点，可以使用.warpper。

#container.wrapper p ：表示为选择id为container的节点，然后选中内部的class为warpper的节点，进一步选中其p节点。

如果不加空格，则表示并列。#container.wrapperp.txt最后选中了class为txt的P节点。

路过

鸡蛋

鲜花

握手

雷人

收藏分享邀请举报

全部作者的其他最新日志

• 爬虫801
• pc730
• 725
• 723

评论 (0 个评论)

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-11 00:04

Powered by Discuz! X3.4

账号		自动登录	找回密码
密码			立即注册