爬虫代码问题
小甲鱼极客爬虫篇中的代码无法爬取网页,请问该怎么修改以及问题出在哪里呢?是因为淘宝现在要登录以后才能搜索吗?
import requests
def open_url(keyword):
payload = {'q':keyword, "sort":"sale-desc"}
url = "https://s.taobao.com/search"
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}
res = requests.get(url, params=payload, headers=headers)
return res
def main():
keyword = input("请输入搜索关键词:")
res = open_url(keyword)
with open("items.txt", "w", encoding="utf-8") as file:
file.write(res.text)
if __name__ == "__main__":
main() 本帖最后由 isdkz 于 2022-4-11 23:02 编辑
祢豆子oo 发表于 2022-4-10 10:27
cookie可以仔细讲下吗?我在淘宝界面随便找了个cookie还是爬不出来
你先用浏览器试试可不可以搜索(不一定要登陆,不登陆也可以搜索的话就直接复制 cookie 就行了,
如果不登陆搜索不了那就登录一下再复制 cookie),
可以搜索的话按 F12 打开开发者工具,
然后点网络,点你请求的链接,然后点请求头,右键 cookie 复制值,添加到你的代码的 header 里面
比较关键的几个反爬字段,Cookie、User-Agent、Referer、Accept
import requests
def open_url(keyword):
payload = {'q':keyword, "sort":"sale-desc", 'ie':'utf8'}
url = "https://s.taobao.com/search"
headers = {
'user-agent': 'Mozilla/5.0',
'cookie': r'把复制的 cookie 放这' # 注意这里,因为 cookie 特别长,为了防止有一些转义,请在字符串前面加 r
}
res = requests.get(url, params=payload, headers=headers)
return res
def main():
keyword = input("请输入搜索关键词:")
res = open_url(keyword)
with open("items.txt", "w", encoding="utf-8") as file:
file.write(res.text)
if __name__ == "__main__":
main()
本帖最后由 isdkz 于 2022-4-9 14:04 编辑
对的,淘宝需要登录,登录的话你可以用这个大佬的项目,
看第二个:
https://fishc.com.cn/thread-210923-1-1.html,
或者你也可以在 headers 那里加个 cookie isdkz 发表于 2022-4-9 13:18
对的,淘宝需要登录,登录的话你可以用这个大佬的项目,
看第二个:
cookie可以仔细讲下吗?我在淘宝界面随便找了个cookie还是爬不出来 isdkz 发表于 2022-4-9 13:18
对的,淘宝需要登录,登录的话你可以用这个大佬的项目,
看第二个:
大佬,我刚才试了一下你说加cookie的方法还是没办法爬出来,而且登录了之后再爬也不行 祢豆子oo 发表于 2022-4-13 20:55
大佬,我刚才试了一下你说加cookie的方法还是没办法爬出来,而且登录了之后再爬也不行
items.txt 里面的内容是什么? isdkz 发表于 2022-4-13 20:58
items.txt 里面的内容是什么?
噢,我知道了,要登录之后的cookie,我之前输入的是登陆之前的,现在出来了。感谢感谢
页:
[1]