snowJR 发表于 2020-6-16 22:54:58

python 关于爬虫的一点疑惑

写爬虫的时候,怎么得到搜索之后得到的页面?
比如说我打下“美女”这个关键词得到一个页面,我换成“帅哥”又得到一个新的页面。那我怎么知道更换关键词之后的页面是哪个?

Twilight6 发表于 2020-6-16 23:07:00


点击图片可放大观看


看看网页有没什么规律之类滴呀,就拿百度举例子:

先观察url有没什么规律:




然后发现把后面的全去了也能正常访问网:


test = input('请输入搜索内容:')
url = f'https://www.baidu.com/s?wd={test}' # 传入搜索内容

这种是最简单的了~

Stubborn 发表于 2020-6-16 23:08:42

本帖最后由 Stubborn 于 2020-6-16 23:10 编辑

from urllib.parse import urlparse
result = urlparse("http://www.baidu.com/index.html;user?id=5#comment")
print(type(result), result)
>>> <class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')



分别代表了协议(scheme),域名(netloc),访问路径(path),参数(params),查询条件(query),锚点(fragment)

你想服务器发请求,GET或者POST,都会有对应的参数在里面。

https://www.liepin.com/zhaopin/?sfrom=click-pc_homepage-centre_searchbox-search_new&d_sfrom=search_fp&key=python

后面这一串就是查询参数sfrom=click-pc_homepage-centre_searchbox-search_new&d_sfrom=search_fp&key=python


xiaosi4081 发表于 2020-6-17 07:46:13

import requests
test = input('请输入搜索内容:')
url = f'https://www.baidu.com/s?wd={test}'
res = requests.get(url)
页: [1]
查看完整版本: python 关于爬虫的一点疑惑