爬虫打开url后就不动了

lpp25621832 · 发表于 2020-6-12 19:16:39

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

请教各位大神，为什么我用selenium加chromedriver爬网页的时候，它可以打开url的链接，然后就停在打开的页面就不动了，也没有报错什么的，但就是不动了，这是为什么呢？

老八秘制 · 发表于 2020-6-12 19:28:55

？？？？？

qiuyouzhi · 发表于 2020-6-12 19:29:48

然后你给它指定下一步的操作了吗？

wp231957 · 发表于 2020-6-12 19:44:16

需要上传源码呢

lpp25621832 · 发表于 2020-6-12 19:47:41

#-*- coding: utf-8 -*-

from selenium import webdriver
from lxml.html import etree
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
import time

class myspiderSpider(object):
driver_path = r"C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"
def __init__(self):
      self.driver = webdriver.Chrome(executable_path =myspiderSpider.driver_path)
      self.url = 'www.58.com'

def run(self):
      self.driver.get(self.url)
      source = self.driver.page_source
      self.parse_list_page(source)
      driver = self.driver

def parse_list_page(self,source):
      html = etree.HTML(source)
      links = html.xpath('//*[@id="dataList"]/tr[position()<50]/a/@href')
      for link in links:
         self.request_detail_page(link)
         time.sleep(2)

def request_detail_page(self,url):
      driver = self.driver
      self.driver.execute_script("window.open('%s')"%url)
      self.driver.switch_to.window(self.driver.window_handles[1])
      source = self.driver.page_source
      self.parse_detail_page(source)
      self.driver.close()
      self.driver.switch_to.window(self.driver.window_handles[0])
      time.sleep(2)

def parse_detail_page(self,source):
      html = etree.HTML(source)
      driver = self.driver
      element = driver.find_element_by_xpath('....  ')
      tr_content = element.find_elements_by_xpath(' ... ')
      lst = []
      for tr in tr_content:
         lst.append(tr.text)
      print(lst)

if __name__ == '__main__':
spider = myspiderSpider()
spider.run()

Twilight6 · 发表于 2020-6-12 19:49:28

lpp25621832 发表于 2020-6-12 19:47
#-*- coding: utf-8 -*-

from selenium import webdriver

selenium.common.exceptions.InvalidArgumentException: Message: invalid argument
(Session info: chrome=81.0.4044.138)

你代码问题呀，你没看到打开浏览器后有报错嘛所以浏览器没反应

lpp25621832 · 发表于 2020-6-12 21:07:57

Twilight6 发表于 2020-6-12 19:49
你代码问题呀，你没看到打开浏览器后有报错嘛所以浏览器没反应

代码问题？可是我打开没有报错，我的是python自带的idle 编辑器写的，不是paycharm。
代码是一开始有问题还是后面有问题？

Twilight6 · 发表于 2020-6-12 21:11:19

lpp25621832 发表于 2020-6-12 21:07
代码问题？可是我打开没有报错，我的是python自带的idle 编辑器写的，不是paycharm。
代码是一开始有问 ...

你试试你运行IDLE会不会显示吧我这里是用PyCharm 报错在这self.driver.get(self.url)

lpp25621832 · 发表于 2020-6-12 21:13:49

Twilight6 发表于 2020-6-12 21:11
你试试你运行IDLE会不会显示吧我这里是用PyCharm 报错在这self.driver.get(self.url)

我的idle运行不报错。。。
我还是下个paycharm用吧。

Twilight6 · 发表于 2020-6-12 21:16:37

lpp25621832 发表于 2020-6-12 21:13
我的idle运行不报错。。。
我还是下个paycharm用吧。

emmm 不一定换可能我环境问题哈哈

如果要换的话去我帖子看看石皮解版吧

账号		自动登录	找回密码
密码			立即注册