黎前点星 发表于 2022-7-16 19:05:32

想用selenium抓网页,但是失败,请大神帮我看看

本帖最后由 黎前点星 于 2022-7-17 19:59 编辑

单位的网站,要点击更换验证码的链接,但是用selenium怎么也区不到,请大神帮个忙,谢谢



'''
Chrome浏览器的配置项
'''
from multiprocessing.connection import wait
from time import sleep
from xml.dom.minidom import Element
from selenium import webdriver

class Options:
    def brow_options(self):
      # 创建options对象:配置浏览器的设置
      options = webdriver.ChromeOptions()
      # 页面加载策略
      options.page_load_strategy = 'eager'
      # 去掉浏览器提示自动化黄条:没什么用处,只是为了好看而已。(附加去掉控制台多余日志信息)
      options.add_experimental_option('excludeSwitches',['enable-automation','enable- logging'])
      # 窗体最大化
      # windows系统写法
      # options.add_argument('start_maximized')
      # mac系统写法
      #options.add_argument('--start-fullscreen')
      #禁用chrome的gpu加速,防止页面出现花屏
      options.add_argument('--disable-gpu')
      #忽略证书出错,可以一次性进入页面
      options.add_argument("--ignore-certificate-errors");
      # 1加载本地缓存地址
      '''
      1.windows,打开浏览器通过指令:chrome//:version查找缓存地址
      2.mac系统缓存地址:/Users/xxx/Library/Caches/Google/Chrome/Default/Cachexxx为用户名
      3.通过传入本地缓存来实现缓存获取,参数:--user-data-dir
      4.调用本地缓存时需要关闭所有正在应用的浏览器窗体
      5。因为需要加载本地缓存,启动浏览器之后运行脚本的第一条指令会非常缓慢,如果要提速,手动输入一个请求url即可
      6.一般不推荐使用,需要绕过验证码操作的时候可以添加
      '''
      # options.add_argument(r'--user-data-dir=/Users/xxx/Library/Caches/Google/Chrome/Default/Cache')
      # 指定用户客户端-模拟手机浏览
      # options.add_argument('User-Agent=Mozilla/5.0 (Linux; U; Android 8.1.0; zh-cn; BLA-AL00 Build/HUAWEIBLA-AL00) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/8.9 Mobile Safari/537.36')
      # 添加配置去掉密码管理弹窗
      prefs = dict()
      prefs["credentials_enable_services"] = False
      prefs["profiles.password_manager_enabled"] = False
      
      #prefs[‘chromeOptions’] = {‘w3c’:False}
      #prefs[‘showChromedriverLog’] = True
      
      options.add_experimental_option('prefs',prefs)


      # 无头模式:不在桌面实现浏览器的运行,作为后台静默运行,虽然看不到,但是一切照旧。
      # 偶尔场景会有异常, 但很少
      # selenium设置了headless,就会导致cmd控制台不断输出CONSOLE信息
      # options.add_argument('--headless')
      # 设置日志打印级别,小于3则不打印
      # options.add_argument('--log-level=3')
      # options.add_argument('--disable-gpu')
      # options.add_argument('--ignore-certificate-errors')
      # 隐身模式
      # 隐身模式下无法调用selenium中的switch_to.new_window()函数
      # options.add_argument('incognito')
      # 指定窗口大小
      # options.add_argument('-windows-size=1360,920')
      # return这一步很重要。因为需要有options对象进行返回才可以对webdriver生效
      return options
      
if __name__ == "__main__":
    # 生成浏览器配置
    options = Options().brow_options()
    # 配置webdriver,新版本写法(python3以上)
    # 老版本写法:driver = webdriver.Chrome(chrome_options=options)
    driver = webdriver.Chrome(options=options)



    sleep(5);


    #点击看不清,换一张验证码
    #方法一不行
    element = driver.find_element("class","invisibe")
    #方法二,也不行
    #/html/body/div/div/form/div/span
    #element=driver.find_element("XPATH","/html/body/div/div/form/div/span");
    element.click();
页: [1]
查看完整版本: 想用selenium抓网页,但是失败,请大神帮我看看