python 关于爬虫的一点疑惑
写爬虫的时候,怎么得到搜索之后得到的页面?比如说我打下“美女”这个关键词得到一个页面,我换成“帅哥”又得到一个新的页面。那我怎么知道更换关键词之后的页面是哪个?
点击图片可放大观看
看看网页有没什么规律之类滴呀,就拿百度举例子:
先观察url有没什么规律:
然后发现把后面的全去了也能正常访问网:
test = input('请输入搜索内容:')
url = f'https://www.baidu.com/s?wd={test}' # 传入搜索内容
这种是最简单的了~ 本帖最后由 Stubborn 于 2020-6-16 23:10 编辑
from urllib.parse import urlparse
result = urlparse("http://www.baidu.com/index.html;user?id=5#comment")
print(type(result), result)
>>> <class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')
分别代表了协议(scheme),域名(netloc),访问路径(path),参数(params),查询条件(query),锚点(fragment)
你想服务器发请求,GET或者POST,都会有对应的参数在里面。
https://www.liepin.com/zhaopin/?sfrom=click-pc_homepage-centre_searchbox-search_new&d_sfrom=search_fp&key=python
后面这一串就是查询参数sfrom=click-pc_homepage-centre_searchbox-search_new&d_sfrom=search_fp&key=python
import requests
test = input('请输入搜索内容:')
url = f'https://www.baidu.com/s?wd={test}'
res = requests.get(url)
页:
[1]