爬虫入门001之网络资源及基本原理

moc · 发表于 2018-3-25 15:01:54

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 moc 于 2018-3-25 16:07 编辑

仅为个人理解，如有错误恳请指正。
网络资源：
可以说是网上的所有数据，纯粹的网页、图片、音乐、视频等等都是网络资源，你在网上看到的一切，可以说都是。
URL：
Uniform Resource Locator，中文：统一资源定位符。
用来唯一确定网络资源在互联网上位置的符号。
这个东西也就是我们经常说的网址，像这个https://www.jd.com/{存疑：域名又是？？？}
360截图20180325151512453.jpg

我们可以看到这并不是一个纯粹的网页，还包含像图片等其他的网络资源，那这个网页上包含这么多网络资源他们是怎么连接起来的呢？
答案是——超链接，网页可以通过超链接链接到其他URL上的网络资源。我们在网页上直接点击这张图片，我们并不会链接到只有该图片的网页上，而是会超链接到另一个网页上，这是因为网页制作时是把点击该图片触发的超链接的URL设置成其他URL啦。我们也可以通过把鼠标指针留在该图片上，单击右键选择“复制图片地址”，来获得存放该图片的URL。把这个URL复制到浏览器的地址栏并访问，我们会得到一张只含该图片的网页。这就是存放该图片网络资源的唯一URL。
网页{HTML}
网页也称‘HTML’，是“超文本标记语言{Hypertext Markup Language}”的缩写。超文本是指这个网页可以包含图片、文字、连接、音乐、视频等等。
网页就是靠一个个URL互相连接起来的。如果想查看网页源码，可以在网页空白处单击右键，选择“查看源代码”。
360截图20180325152617315.jpg

我们可以看到源码是以<!DOCTYPE HTML>开头的，它表示这是一个HTML文件。在源码文件中，我们可以看到“<>”这样成对的符号。在”<>”里面有head,link,div等不同的标记，这些标记称为标记标签。
网页的显示：浏览器通过URL从服务器获得网页的HTML源码后，内部会有一个渲染器，通过解析HTML源码中标记的这些标签及内容，将网页绘制到屏幕上，通常为了使网页美观还会使用CSS及JavaScript来增加样式，或增加交互动画等等，这样我们就看到丰富的网页内容。
基本的网页标签

<html>
<body>
<p>新的一段</p>
<div>...</div>
</body>
[size=4]基本的HTML标签：[/size]
</html>

复制代码

<html>与</html>之间的文本是网页中有效的html代码。
<body>与</body>之间的文本是我们实际可见的页面内容。
<p>与</p>之间的文本则为一个新的段落。
<div> 标签定义HTML 文档中的一个分隔区块或者一个区域部分。

**爬虫的基本原理：
通过程序获取网页中的内容，即通过程序访问URL，获取HTML源码，并解析HTMl标签中的内容来获得我们需要的资源。

404NOT · 发表于 2018-3-25 15:15:54

赞!如果在我当初学之前就看到这些知识就再好不过了，感谢

新手·ing · 发表于 2018-3-25 15:36:47

为啥不创一个淘专辑呢，挺想看看爬虫的。

moc · 发表于 2018-3-25 15:58:29

新手·ing 发表于 2018-3-25 15:36
为啥不创一个淘专辑呢，挺想看看爬虫的。

目前也在学习中，懂得不是很多，我会建个专辑，慢慢把学到的都记录下来，谢谢支持！

moc · 发表于 2018-3-25 16:04:28

404NOT 发表于 2018-3-25 15:15
赞!如果在我当初学之前就看到这些知识就再好不过了，感谢

我也刚学，有什么错误，还请指正哦

账号		自动登录	找回密码
密码			立即注册

[学习笔记] 爬虫入门001之网络资源及基本原理

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块