鱼C论坛

 找回密码
 立即注册
查看: 947|回复: 9

爬虫打开url后就不动了

[复制链接]
发表于 2020-6-12 19:16:39 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
请教各位大神,为什么我用selenium加chromedriver爬网页的时候,它可以打开url的链接,然后就停在打开的页面就不动了,也没有报错什么的,但就是不动了,这是为什么呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-12 19:28:55 | 显示全部楼层
?????
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-12 19:29:48 | 显示全部楼层
然后你给它指定下一步的操作了吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-12 19:44:16 From FishC Mobile | 显示全部楼层
需要上传源码呢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-12 19:47:41 | 显示全部楼层
#-*- coding: utf-8 -*-

from selenium import webdriver
from lxml.html import etree
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
import time

class myspiderSpider(object):
    driver_path = r"C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"  
    def __init__(self):
        self.driver = webdriver.Chrome(executable_path =myspiderSpider.driver_path)
        self.url = 'www.58.com'
      
    def run(self):
        self.driver.get(self.url)
        source = self.driver.page_source
        self.parse_list_page(source)
        driver = self.driver
        
    def parse_list_page(self,source):
        html = etree.HTML(source)
        links = html.xpath('//*[@id="dataList"]/tr[position()<50]/a/@href')
        for link in links:
            self.request_detail_page(link)
            time.sleep(2)            
            
    def request_detail_page(self,url):
        driver = self.driver
        self.driver.execute_script("window.open('%s')"%url)
        self.driver.switch_to.window(self.driver.window_handles[1])
        source = self.driver.page_source
        self.parse_detail_page(source)
        self.driver.close()
        self.driver.switch_to.window(self.driver.window_handles[0])
        time.sleep(2)                       
        
    def parse_detail_page(self,source):
        html = etree.HTML(source)
        driver = self.driver
        element = driver.find_element_by_xpath('....  ')
        tr_content = element.find_elements_by_xpath(' ... ')
        lst = []                       
        for tr in tr_content:
            lst.append(tr.text)   
        print(lst)
        
if __name__ == '__main__':      
    spider = myspiderSpider()      
    spider.run()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-12 19:49:28 | 显示全部楼层
lpp25621832 发表于 2020-6-12 19:47
#-*- coding: utf-8 -*-

from selenium import webdriver

selenium.common.exceptions.InvalidArgumentException: Message: invalid argument
  (Session info: chrome=81.0.4044.138)


你代码问题呀,你没看到打开浏览器后有报错嘛  所以浏览器没反应
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-12 21:07:57 | 显示全部楼层
Twilight6 发表于 2020-6-12 19:49
你代码问题呀,你没看到打开浏览器后有报错嘛  所以浏览器没反应

代码问题?可是我打开没有报错,我的是python自带的idle 编辑器写的,不是paycharm。
代码是一开始有问题还是后面有问题?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-12 21:11:19 | 显示全部楼层
lpp25621832 发表于 2020-6-12 21:07
代码问题?可是我打开没有报错,我的是python自带的idle 编辑器写的,不是paycharm。
代码是一开始有问 ...

你试试你运行IDLE会不会显示吧   我这里是用PyCharm  报错在这self.driver.get(self.url)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-12 21:13:49 | 显示全部楼层
Twilight6 发表于 2020-6-12 21:11
你试试你运行IDLE会不会显示吧   我这里是用PyCharm  报错在这self.driver.get(self.url)

我的idle运行不报错。。。
我还是下个paycharm用吧。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-12 21:16:37 | 显示全部楼层
lpp25621832 发表于 2020-6-12 21:13
我的idle运行不报错。。。
我还是下个paycharm用吧。

emmm 不一定换  可能我 环境问题哈哈

如果要换的话去我帖子看看 石皮解版吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-20 17:03

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表