爬虫代码问题,Python交流,编程语言专区,鱼C论坛

祢豆子oo 发表于 2022-4-9 12:33:43

爬虫代码问题

小甲鱼极客爬虫篇中的代码无法爬取网页，请问该怎么修改以及问题出在哪里呢？
是因为淘宝现在要登录以后才能搜索吗？
import requests

def open_url(keyword):
payload = {'q':keyword, "sort":"sale-desc"}
url = "https://s.taobao.com/search"
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}

res = requests.get(url, params=payload, headers=headers)

return res

def main():
keyword = input("请输入搜索关键词：")
res = open_url(keyword)

with open("items.txt", "w", encoding="utf-8") as file:
file.write(res.text)

if __name__ == "__main__":
main()

isdkz 发表于 2022-4-9 12:33:44

本帖最后由 isdkz 于 2022-4-11 23:02 编辑

祢豆子oo 发表于 2022-4-10 10:27
cookie可以仔细讲下吗？我在淘宝界面随便找了个cookie还是爬不出来

你先用浏览器试试可不可以搜索（不一定要登陆，不登陆也可以搜索的话就直接复制 cookie 就行了，

如果不登陆搜索不了那就登录一下再复制 cookie），

可以搜索的话按 F12 打开开发者工具，

然后点网络，点你请求的链接，然后点请求头，右键 cookie 复制值，添加到你的代码的 header 里面

比较关键的几个反爬字段，Cookie、User-Agent、Referer、Accept
import requests

def open_url(keyword):
payload = {'q':keyword, "sort":"sale-desc", 'ie':'utf8'}
url = "https://s.taobao.com/search"
headers = {
         'user-agent': 'Mozilla/5.0',
         'cookie': r'把复制的 cookie 放这'                         # 注意这里，因为 cookie 特别长，为了防止有一些转义，请在字符串前面加 r
         }

res = requests.get(url, params=payload, headers=headers)

return res

def main():
keyword = input("请输入搜索关键词：")
res = open_url(keyword)

with open("items.txt", "w", encoding="utf-8") as file:
   file.write(res.text)

if __name__ == "__main__":
main()

isdkz 发表于 2022-4-9 13:18:34

本帖最后由 isdkz 于 2022-4-9 14:04 编辑

对的，淘宝需要登录，登录的话你可以用这个大佬的项目，

看第二个:
https://fishc.com.cn/thread-210923-1-1.html,

或者你也可以在 headers 那里加个 cookie

祢豆子oo 发表于 2022-4-10 10:27:14

isdkz 发表于 2022-4-9 13:18
对的，淘宝需要登录，登录的话你可以用这个大佬的项目，

看第二个:

cookie可以仔细讲下吗？我在淘宝界面随便找了个cookie还是爬不出来

祢豆子oo 发表于 2022-4-13 20:55:26

isdkz 发表于 2022-4-9 13:18
对的，淘宝需要登录，登录的话你可以用这个大佬的项目，

看第二个:

大佬，我刚才试了一下你说加cookie的方法还是没办法爬出来，而且登录了之后再爬也不行

isdkz 发表于 2022-4-13 20:58:10

祢豆子oo 发表于 2022-4-13 20:55
大佬，我刚才试了一下你说加cookie的方法还是没办法爬出来，而且登录了之后再爬也不行

items.txt 里面的内容是什么？

祢豆子oo 发表于 2022-4-14 21:18:50

isdkz 发表于 2022-4-13 20:58
items.txt 里面的内容是什么？

噢，我知道了，要登录之后的cookie，我之前输入的是登陆之前的，现在出来了。感谢感谢

页: [1]

鱼C论坛's Archiver

爬虫代码问题