鱼C论坛

 找回密码
 立即注册
查看: 562|回复: 2

爬取淘宝商品的时候输出不了结果

[复制链接]
发表于 2018-8-17 19:13:13 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
利用selenium爬取淘宝商品的时候输出不了结果,求大神:
import re
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from pyquery import PyQuery as pq

browser=webdriver.Chrome()
wait=WebDriverWait(browser,10)

def search():
    try:
        browser.get('https://www.taobao.com')
        input=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#q')))
        submit=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button')))
        input.send_keys('手机')
        submit.click()
        total=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#spulist-pager > div > div > div > div.total')))
        return total.text
    except TimeoutException:
        return search()

def next_page(page_number):
    try:
        input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#spulist-pager > div > div > div > div.form > input')))
        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#spulist-pager > div > div > div > div.form > span.btn.J_Submit')))
        input.clear()
        input.send_keys(page_number)
        submit.click()
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#spulist-pager > div > div > div > ul > li.item.active > span'),str(page_number)))
    except TimeoutException:
        next_page(page_number)

def get_products():
    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#spulist-grid .grid-container row .grid-item col')))
    html=browser.page_source
    doc=pq(html)
    items=doc('#spulist-grid .grid-container row  .grid-item col').items()
    for item in items:
        products={
                'images':item.find('.img-box .img').attr('src'),
                'price':item.find('.price').text(),
                'deal':item.find('.week-sale').text(),
                'title':item.find('.feature').text(),
                'screen':item.find('.important-key').text()
        }
        print(products)

def main():
    total=search()
    total=int(re.compile('(\d+)').search(total).group(1))
    for i in range(2,total+1):
        next_page(i)

if __name__=='__main__':
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-17 20:27:00 | 显示全部楼层
1、首先要检查服务器返回是否200
2、检查正则表达式无误
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-8-19 19:58:14 | 显示全部楼层
凌九霄 发表于 2018-8-17 20:27
1、首先要检查服务器返回是否200
2、检查正则表达式无误

没问题呀,应该是网页的ID、class什么的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-10-6 12:21

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表