鱼C论坛

 找回密码
 立即注册
查看: 2593|回复: 6

[已解决]爬虫代码问题

[复制链接]
发表于 2022-4-9 12:33:43 | 显示全部楼层 |阅读模式
60鱼币
小甲鱼极客爬虫篇中的代码无法爬取网页,请问该怎么修改以及问题出在哪里呢?
是因为淘宝现在要登录以后才能搜索吗?
import requests

def open_url(keyword):
    payload = {'q':keyword, "sort":"sale-desc"}
    url = "https://s.taobao.com/search"
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}

    res = requests.get(url, params=payload, headers=headers)

    return res

def main():
    keyword = input("请输入搜索关键词:")
    res = open_url(keyword)

    with open("items.txt", "w", encoding="utf-8") as file:
        file.write(res.text)
   
if __name__ == "__main__":
    main()
最佳答案
2022-4-9 12:33:44
本帖最后由 isdkz 于 2022-4-11 23:02 编辑
祢豆子oo 发表于 2022-4-10 10:27
cookie可以仔细讲下吗?我在淘宝界面随便找了个cookie还是爬不出来


你先用浏览器试试可不可以搜索(不一定要登陆,不登陆也可以搜索的话就直接复制 cookie 就行了,

如果不登陆搜索不了那就登录一下再复制 cookie),

可以搜索的话按 F12 打开开发者工具,

然后点网络,点你请求的链接,然后点请求头,右键 cookie 复制值,添加到你的代码的 header 里面

比较关键的几个反爬字段,Cookie、User-Agent、Referer、Accept
import requests

def open_url(keyword):
    payload = {'q':keyword, "sort":"sale-desc", 'ie':'utf8'}
    url = "https://s.taobao.com/search"
    headers = {  
            'user-agent': 'Mozilla/5.0',
            'cookie': r'把复制的 cookie 放这'                           # 注意这里,因为 cookie 特别长,为了防止有一些转义,请在字符串前面加 r
            }


    res = requests.get(url, params=payload, headers=headers)

    return res

def main():
    keyword = input("请输入搜索关键词:")
    res = open_url(keyword)

    with open("items.txt", "w", encoding="utf-8") as file:
        file.write(res.text)
   
if __name__ == "__main__":
    main()


11.png

最佳答案

查看完整内容

你先用浏览器试试可不可以搜索(不一定要登陆,不登陆也可以搜索的话就直接复制 cookie 就行了, 如果不登陆搜索不了那就登录一下再复制 cookie), 可以搜索的话按 F12 打开开发者工具, 然后点网络,点你请求的链接,然后点请求头,右键 cookie 复制值,添加到你的代码的 header 里面 比较关键的几个反爬字段,Cookie、User-Agent、Referer、Accept
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-4-9 12:33:44 | 显示全部楼层    本楼为最佳答案   
本帖最后由 isdkz 于 2022-4-11 23:02 编辑
祢豆子oo 发表于 2022-4-10 10:27
cookie可以仔细讲下吗?我在淘宝界面随便找了个cookie还是爬不出来


你先用浏览器试试可不可以搜索(不一定要登陆,不登陆也可以搜索的话就直接复制 cookie 就行了,

如果不登陆搜索不了那就登录一下再复制 cookie),

可以搜索的话按 F12 打开开发者工具,

然后点网络,点你请求的链接,然后点请求头,右键 cookie 复制值,添加到你的代码的 header 里面

比较关键的几个反爬字段,Cookie、User-Agent、Referer、Accept
import requests

def open_url(keyword):
    payload = {'q':keyword, "sort":"sale-desc", 'ie':'utf8'}
    url = "https://s.taobao.com/search"
    headers = {  
            'user-agent': 'Mozilla/5.0',
            'cookie': r'把复制的 cookie 放这'                           # 注意这里,因为 cookie 特别长,为了防止有一些转义,请在字符串前面加 r
            }


    res = requests.get(url, params=payload, headers=headers)

    return res

def main():
    keyword = input("请输入搜索关键词:")
    res = open_url(keyword)

    with open("items.txt", "w", encoding="utf-8") as file:
        file.write(res.text)
   
if __name__ == "__main__":
    main()


11.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-4-9 13:18:34 | 显示全部楼层
本帖最后由 isdkz 于 2022-4-9 14:04 编辑

对的,淘宝需要登录,登录的话你可以用这个大佬的项目,

看第二个:
https://fishc.com.cn/thread-210923-1-1.html,

或者你也可以在 headers 那里加个 cookie
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-4-10 10:27:14 | 显示全部楼层
isdkz 发表于 2022-4-9 13:18
对的,淘宝需要登录,登录的话你可以用这个大佬的项目,

看第二个:

cookie可以仔细讲下吗?我在淘宝界面随便找了个cookie还是爬不出来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-4-13 20:55:26 | 显示全部楼层
isdkz 发表于 2022-4-9 13:18
对的,淘宝需要登录,登录的话你可以用这个大佬的项目,

看第二个:

大佬,我刚才试了一下你说加cookie的方法还是没办法爬出来,而且登录了之后再爬也不行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-4-13 20:58:10 | 显示全部楼层
祢豆子oo 发表于 2022-4-13 20:55
大佬,我刚才试了一下你说加cookie的方法还是没办法爬出来,而且登录了之后再爬也不行

items.txt 里面的内容是什么?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-4-14 21:18:50 | 显示全部楼层
isdkz 发表于 2022-4-13 20:58
items.txt 里面的内容是什么?

噢,我知道了,要登录之后的cookie,我之前输入的是登陆之前的,现在出来了。感谢感谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-11 18:02

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表