python 关于爬虫的一点疑惑

snowJR · 发表于 2020-6-16 22:54:58

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

写爬虫的时候，怎么得到搜索之后得到的页面？
比如说我打下“美女”这个关键词得到一个页面，我换成“帅哥”又得到一个新的页面。那我怎么知道更换关键词之后的页面是哪个？

Twilight6 · 发表于 2020-6-16 23:07:00

点击图片可放大观看

看看网页有没什么规律之类滴呀，就拿百度举例子：

先观察url有没什么规律：

然后发现把后面的全去了也能正常访问网:

test = input('请输入搜索内容：')

url = f'https://www.baidu.com/s?wd={test}' # 传入搜索内容
复制代码

这种是最简单的了~

Stubborn · 发表于 2020-6-16 23:08:42

本帖最后由 Stubborn 于 2020-6-16 23:10 编辑

from urllib.parse import urlparse
result = urlparse("http://www.baidu.com/index.html;user?id=5#comment")
print(type(result), result)
>>> <class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

复制代码

分别代表了协议(scheme),域名(netloc),访问路径(path),参数(params),查询条件(query),锚点(fragment)

你想服务器发请求，GET或者POST,都会有对应的参数在里面。

https://www.liepin.com/zhaopin/?sfrom=click-pc_homepage-centre_searchbox-search_new&d_sfrom=search_fp&key=python

复制代码

后面这一串就是查询参数sfrom=click-pc_homepage-centre_searchbox-search_new&d_sfrom=search_fp&key=python

xiaosi4081 · 发表于 2020-6-17 07:46:13

import requests
test = input('请输入搜索内容：')
url = f'https://www.baidu.com/s?wd={test}'
res = requests.get(url)

复制代码

账号		自动登录	找回密码
密码			立即注册