鱼C论坛

 找回密码
 立即注册
查看: 1047|回复: 3

python 关于爬虫的一点疑惑

[复制链接]
发表于 2020-6-16 22:54:58 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
写爬虫的时候,怎么得到搜索之后得到的页面?
比如说我打下“美女”这个关键词得到一个页面,我换成“帅哥”又得到一个新的页面。那我怎么知道更换关键词之后的页面是哪个?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-16 23:07:00 | 显示全部楼层

点击图片可放大观看


看看网页有没什么规律之类滴呀,就拿百度举例子:

先观察url有没什么规律:
1222.png


1333.png


然后发现把后面的全去了也能正常访问网:
1444.png
test = input('请输入搜索内容:')
url = f'https://www.baidu.com/s?wd={test}' # 传入搜索内容

这种是最简单的了~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-16 23:08:42 | 显示全部楼层
本帖最后由 Stubborn 于 2020-6-16 23:10 编辑
from urllib.parse import urlparse
result = urlparse("http://www.baidu.com/index.html;user?id=5#comment")
print(type(result), result)
>>> <class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

分别代表了协议(scheme),域名(netloc),访问路径(path),参数(params),查询条件(query),锚点(fragment)

你想服务器发请求,GET或者POST,都会有对应的参数在里面。
https://www.liepin.com/zhaopin/?sfrom=click-pc_homepage-centre_searchbox-search_new&d_sfrom=search_fp&key=python

后面这一串就是查询参数sfrom=click-pc_homepage-centre_searchbox-search_new&d_sfrom=search_fp&key=python


想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-17 07:46:13 | 显示全部楼层
import requests
test = input('请输入搜索内容:')
url = f'https://www.baidu.com/s?wd={test}' 
res = requests.get(url)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-20 16:30

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表