鱼C论坛

 找回密码
 立即注册
查看: 1378|回复: 0

想用selenium抓网页,但是失败,请大神帮我看看

[复制链接]
发表于 2022-7-16 19:05:32 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 黎前点星 于 2022-7-17 19:59 编辑

单位的网站,要点击更换验证码的链接,但是用selenium怎么也区不到,请大神帮个忙,谢谢


'''
Chrome浏览器的配置项
'''
from multiprocessing.connection import wait
from time import sleep
from xml.dom.minidom import Element
from selenium import webdriver

class Options:
    def brow_options(self):
        # 创建options对象:配置浏览器的设置
        options = webdriver.ChromeOptions()
        # 页面加载策略
        options.page_load_strategy = 'eager'
        # 去掉浏览器提示自动化黄条:没什么用处,只是为了好看而已。(附加去掉控制台多余日志信息)
        options.add_experimental_option('excludeSwitches',['enable-automation','enable- logging'])
        # 窗体最大化
        # windows系统写法
        # options.add_argument('start_maximized')
        # mac系统写法
        #options.add_argument('--start-fullscreen')
        #禁用chrome的gpu加速,防止页面出现花屏
        options.add_argument('--disable-gpu')
        #忽略证书出错,可以一次性进入页面
        options.add_argument("--ignore-certificate-errors");
        # 1加载本地缓存地址
        '''
        1.windows,打开浏览器通过指令:chrome//:version查找缓存地址
        2.mac系统缓存地址:/Users/xxx/Library/Caches/Google/Chrome/Default/Cache  xxx为用户名
        3.通过传入本地缓存来实现缓存获取,参数:--user-data-dir
        4.调用本地缓存时需要关闭所有正在应用的浏览器窗体
        5。因为需要加载本地缓存,启动浏览器之后运行脚本的第一条指令会非常缓慢,如果要提速,手动输入一个请求url即可
        6.一般不推荐使用,需要绕过验证码操作的时候可以添加
        '''
        # options.add_argument(r'--user-data-dir=/Users/xxx/Library/Caches/Google/Chrome/Default/Cache')
        # 指定用户客户端-模拟手机浏览
        # options.add_argument('User-Agent=Mozilla/5.0 (Linux; U; Android 8.1.0; zh-cn; BLA-AL00 Build/HUAWEIBLA-AL00) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/8.9 Mobile Safari/537.36')
        # 添加配置去掉密码管理弹窗
        prefs = dict()
        prefs["credentials_enable_services"] = False
        prefs["profiles.password_manager_enabled"] = False
        
        #prefs[‘chromeOptions’] = {‘w3c’:False}
        #prefs[‘showChromedriverLog’] = True
        
        options.add_experimental_option('prefs',prefs)


        # 无头模式:不在桌面实现浏览器的运行,作为后台静默运行,虽然看不到,但是一切照旧。
        # 偶尔场景会有异常, 但很少
        # selenium设置了headless,就会导致cmd控制台不断输出CONSOLE信息
        # options.add_argument('--headless')
        # 设置日志打印级别,小于3则不打印
        # options.add_argument('--log-level=3')
        # options.add_argument('--disable-gpu')
        # options.add_argument('--ignore-certificate-errors')
        # 隐身模式
        # 隐身模式下无法调用selenium中的switch_to.new_window()函数
        # options.add_argument('incognito')
        # 指定窗口大小
        # options.add_argument('-windows-size=1360,920')
        # return这一步很重要。因为需要有options对象进行返回才可以对webdriver生效
        return options
        
if __name__ == "__main__":
    # 生成浏览器配置
    options = Options().brow_options()
    # 配置webdriver,新版本写法(python3以上)
    # 老版本写法:driver = webdriver.Chrome(chrome_options=options)
    driver = webdriver.Chrome(options=options)



    sleep(5);

  
    #点击看不清,换一张验证码
    #方法一  不行
    element = driver.find_element("class","invisibe")
    #方法二,也不行
    #/html/body/div[2]/div/form/div[5]/span
    #element=driver.find_element("XPATH","/html/body/div[2]/div/form/div[5]/span");
    element.click();
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-10-8 13:38

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表