祢豆子oo 发表于 2022-4-9 12:33:43

爬虫代码问题

小甲鱼极客爬虫篇中的代码无法爬取网页,请问该怎么修改以及问题出在哪里呢?
是因为淘宝现在要登录以后才能搜索吗?
import requests

def open_url(keyword):
    payload = {'q':keyword, "sort":"sale-desc"}
    url = "https://s.taobao.com/search"
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}

    res = requests.get(url, params=payload, headers=headers)

    return res

def main():
    keyword = input("请输入搜索关键词:")
    res = open_url(keyword)

    with open("items.txt", "w", encoding="utf-8") as file:
      file.write(res.text)
   
if __name__ == "__main__":
    main()

isdkz 发表于 2022-4-9 12:33:44

本帖最后由 isdkz 于 2022-4-11 23:02 编辑

祢豆子oo 发表于 2022-4-10 10:27
cookie可以仔细讲下吗?我在淘宝界面随便找了个cookie还是爬不出来

你先用浏览器试试可不可以搜索(不一定要登陆,不登陆也可以搜索的话就直接复制 cookie 就行了,

如果不登陆搜索不了那就登录一下再复制 cookie),

可以搜索的话按 F12 打开开发者工具,

然后点网络,点你请求的链接,然后点请求头,右键 cookie 复制值,添加到你的代码的 header 里面

比较关键的几个反爬字段,Cookie、User-Agent、Referer、Accept
import requests

def open_url(keyword):
    payload = {'q':keyword, "sort":"sale-desc", 'ie':'utf8'}
    url = "https://s.taobao.com/search"
    headers = {
            'user-agent': 'Mozilla/5.0',
            'cookie': r'把复制的 cookie 放这'                           # 注意这里,因为 cookie 特别长,为了防止有一些转义,请在字符串前面加 r
            }


    res = requests.get(url, params=payload, headers=headers)

    return res

def main():
    keyword = input("请输入搜索关键词:")
    res = open_url(keyword)

    with open("items.txt", "w", encoding="utf-8") as file:
      file.write(res.text)
   
if __name__ == "__main__":
    main()

isdkz 发表于 2022-4-9 13:18:34

本帖最后由 isdkz 于 2022-4-9 14:04 编辑

对的,淘宝需要登录,登录的话你可以用这个大佬的项目,

看第二个:
https://fishc.com.cn/thread-210923-1-1.html,

或者你也可以在 headers 那里加个 cookie

祢豆子oo 发表于 2022-4-10 10:27:14

isdkz 发表于 2022-4-9 13:18
对的,淘宝需要登录,登录的话你可以用这个大佬的项目,

看第二个:


cookie可以仔细讲下吗?我在淘宝界面随便找了个cookie还是爬不出来

祢豆子oo 发表于 2022-4-13 20:55:26

isdkz 发表于 2022-4-9 13:18
对的,淘宝需要登录,登录的话你可以用这个大佬的项目,

看第二个:


大佬,我刚才试了一下你说加cookie的方法还是没办法爬出来,而且登录了之后再爬也不行

isdkz 发表于 2022-4-13 20:58:10

祢豆子oo 发表于 2022-4-13 20:55
大佬,我刚才试了一下你说加cookie的方法还是没办法爬出来,而且登录了之后再爬也不行

items.txt 里面的内容是什么?

祢豆子oo 发表于 2022-4-14 21:18:50

isdkz 发表于 2022-4-13 20:58
items.txt 里面的内容是什么?

噢,我知道了,要登录之后的cookie,我之前输入的是登陆之前的,现在出来了。感谢感谢
页: [1]
查看完整版本: 爬虫代码问题