鱼C论坛

 找回密码
 立即注册
查看: 5163|回复: 11

爬虫问题

[复制链接]
发表于 2020-8-8 17:40:02 | 显示全部楼层 |阅读模式
40鱼币
爬虫爬取结果:您的浏览器Javascript被禁用,需开启后体验完整功能
我的浏览器开启了Javascript,且爬取其他网址没有任何问题
cookies是用google的开发者工具当场抓取的放在test.txt里面的
import requests
import os, sys, stat
from lxml import etree
import time

#获取cookies
f=open(r'test.txt','r')
cookies={}
for line in f.read().split(';'):
    name,value=line.strip().split('=',1)
    cookies[name]=value
#换ip
proxies = {"HTTP":"163.204.240.202:9999",
           "HTTPS":"110.243.13.45:9999"}

#主函数
def start_1():
    url_1 = "https://wenku.baidu.com/view/1b4035173a3567ec102de2bd960590c69ec3d807.html"
    response = requests.get(url_1,headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3"},\
                            cookies=cookies,proxies=proxies).content.decode('utf-8')
    html = etree.HTML(response)
    links = html.xpath("//div")
    for index in range(len(links)):
     # links[index]返回的是一个字典
#返回网站信息
        if (index % 2) == 0:
            print(links[index].tag)
            print(links[index].attrib)
            print(links[index].text)

start_1()
屏幕截图(137).png
爬虫访问百度文库被阻止,想知道是什么原因,ip,headers,cookies都加了为什么还是被拒绝了,
希望能给出问题解决方案(有解决代码就更好了)

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-9 08:48:22 | 显示全部楼层
看来这个网站反爬很厉害
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-9 09:30:35 | 显示全部楼层
本帖最后由 bangbang-ande 于 2020-8-9 09:51 编辑

百度一般不让别人去爬,爬了有可能会被封ip
以后要爬可以加robots.txt看可不可以爬而已
这是加了robots.txt后的信息(网址:点这个
user-agent是用户(*是所有除了单列的所有爬虫)
Disallow是禁止爬https://wenku.baidu.com(网址主站(不包含/)后的位置)
例如:
内部有个这样的:
user-agent: *
disallow:/
那么意思就是所有用户(除搜索引擎外)都不能访问https://wenku.baidu.com/后的所有网址
如果听不懂的话可已看看一个讲解视频(我也是从这里才知道的。。。)讲解视频
User-agent: 百度爬虫
Disallow: /w?
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 谷歌爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: msn机器人
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 百度图片爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 有道爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 搜狗网页爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 搜狗ai爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 搜狗爬虫2
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 搜狗博客爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 搜狗新闻爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 搜狗网络在线信息检索爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 中国搜索爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 搜搜爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/


User-agent: 神马搜索爬虫(??)
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
Request-rate: 30/1 # load 30 page per 1 seconds
Crawl-delay: 10

User-agent: 宜搜爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/

User-agent: 头条爬虫
Disallow: /

User-agent: 其他用户
Disallow: /
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-8-9 09:30:37 | 显示全部楼层
陈尚涵 发表于 2020-8-9 08:48
看来这个网站反爬很厉害

爬的网址是百度文库的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-9 09:35:52 | 显示全部楼层
被反爬了?建议不要爬百度
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-8-9 09:47:38 | 显示全部楼层
aaron.yang 发表于 2020-8-9 09:35
被反爬了?建议不要爬百度

啊,这,不是吧,那么厉害的吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-8-9 09:48:15 | 显示全部楼层
bangbang-ande 发表于 2020-8-9 09:30
百度一般不让别人去爬,爬了有可能会被封ip
以后要爬可以加robots.txt

怎么查robots.txt,今天才第二次玩爬虫不懂这些
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-9 09:52:25 | 显示全部楼层
伏惜寒 发表于 2020-8-9 09:48
怎么查robots.txt,今天才第二次玩爬虫不懂这些

这个等审核完就知道了。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-9 09:53:59 | 显示全部楼层
伏惜寒 发表于 2020-8-9 09:48
怎么查robots.txt,今天才第二次玩爬虫不懂这些

百度一般不能爬,可以爬的就可能只有百度指数一个了。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-9 09:57:05 | 显示全部楼层
伏惜寒 发表于 2020-8-9 09:48
怎么查robots.txt,今天才第二次玩爬虫不懂这些

先给个链接:https://www.bilibili.com/video/BV1o7411q7za?p=4,你看看,比较可靠
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-8-9 10:04:41 | 显示全部楼层
bangbang-ande 发表于 2020-8-9 09:53
百度一般不能爬,可以爬的就可能只有百度指数一个了。。。

我是看别人爬到了,我才来试一试的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-9 22:18:03 | 显示全部楼层
robots协议只是提倡。如果你没有高频的请求看上去像是攻击一样就没事的对个人而言。我觉得你的这个问题应该就是直接浏览器的问题。我用selenium库爬百度文库没问题的。
还有啊百度文库你这样爬的话应该的爬不到你想要的内容的有个异步加载。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-19 11:10

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表