鱼C论坛

 找回密码
 立即注册

2018716

已有 224 次阅读2018-7-16 21:49

url:uniform resource identifier 统一资源标识符
uri:uniform resource Locator    统一资源定位符
在目前互联网中,几乎所有的uri都是Url
超文本 hypertext 网页源代码HTML  F12-Elements
HTTP: 超文本传输协议 保证高效准确的传送超文本文档
HTTPS:加密版的HTTP 加入了SSl层 
作用:保证传输安全 确认真实性
HTTP的请求过程:
name:请求名称 一般是URL的最后一部分内容
status:状态码 200表示成功
Type:请求的文档类型
initiator:标记是哪个对象发起的请求
Size:从服务器下载资源的大小。从缓存中取得则为:from cache
Time:总时间
waterfall:可视化瀑布流
General:
Request URL/method 请求的url和方法
status Code 响应状态码
Remote address:远程服务器地址与端口
referrer Policy:referrer判别策略
Response Header:(响应头):
Data:响应产生时间
Last-Modified:指定资源最后修改时间
content-encoding:响应内容的编码
server:包含服务器的相关信息
content-type:指定返回的数据类型是什么
set-cookie:设置cookies
expires:指定响应过期时间。保质期内可以直接从缓存中加载
request Header:(请求头)
服务器会根据请求头的方法判断请求是否合法,从而响应。
Accept:请求报头域,制定客户端可接受哪些类型信息
Accept-language:指定客户端接受语言类型
Accept-encoding:指定客户端接受编码类型
Host: 指定请求资源主机的IP与端口号
cookie:跟踪辨认用户
Referer:表示请求从那个页面发过来的
USER-Agent:可识别用户浏览器,系统。可用这条信息伪装成浏览器
content-type:表示具体请求的媒体类型信息
在做爬虫时,我们主要通过响应体得到网页源代码,json数据。做相应提取。

网页基础:
网页分为三个部分:HTML,CSS,Javascript。
HTML:超文本标记语言,网页的基础框架就是HTML。
css:让网页更加美观。
javascript:使得浏览器与用户之间存在实时,动态,交互的页面功能。
<!DOCTYPE HTML>
<html>
<head>
<meta charset='UTF-8'>
<title>this is a demo</title>
</head>
<body>
<div id='container'>
<id class='wrapper'>
<h2 class ='title'><helloWORLD</h2>
<p class='text'>Hello,this is a paragraph.</p>
</body>
</html>

开头用DOCTYPE定义了文档类型,最外层是<html>,</html>标签,其内部的<head>,<body>,标签
分别代表网页头跟网页体,他们也需要对应的结束标签。head标签也定义了一些页面的配置和引用
<meta charset='UTF-8'> 他指定了网页的编码为UTF-8.

HTml中,所有标签定义的内容都是节点,构成了html dom树。

在css中,使用css选择器来定位节点,如将div中的节点id为container,可以表示为#container。
如果我们要选择class为warpper的节点,可以使用.warpper。
#container.wrapper p :表示为选择id为container的节点,然后选中内部的class为warpper的节点,进一步选中其p节点。
如果不加空格,则表示并列。#container.wrapperp.txt最后选中了class为txt的P节点。



















路过

鸡蛋

鲜花

握手

雷人

全部作者的其他最新日志

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 立即注册

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-11 05:47

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部