鱼C论坛

 找回密码
 立即注册
查看: 817|回复: 5

爬取动态网页

[复制链接]
发表于 2023-7-31 10:29:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
请问各位大佬,这个https://www.jianshu.com/网页是动态加载,手动下滑才可以显示出下面的东西,我这个代码该怎么修改一下才可以获取全部文章的url呢
  1. import logging
  2. import asyncio
  3. from pyppeteer import launch
  4. from pyppeteer.errors import TimeoutError

  5. logging.basicConfig(level=logging.INFO,format = '%(asctime)s - %(levelname)s: %(message)s')
  6. index_url = 'https://www.jianshu.com/'
  7. PAGE = 1
  8. TIMEOUT = 10
  9. #设置宽高
  10. WINDOW_WIDTH,WINDOW_HIGHT = 1366,768
  11. HEADLESS = False

  12. #初始化方法
  13. brower,tab = None,None

  14. async def init():
  15.     global brower,tab
  16.     brower = await launch(headless = HEADLESS,args=['--disable-infobars',f'--window-size={WINDOW_WIDTH},{WINDOW_HIGHT}'])
  17.     tab = await brower.newPage()
  18.     await tab.evaluateOnNewDocument('Object.defineProperty(navigator,"webdriver",{get:()=>undefined})')
  19.     await tab.setViewport({'width':WINDOW_WIDTH,'height':WINDOW_HIGHT})


  20. #定义一个通用爬取
  21. async def scrape_url(url,selector):
  22.     logging.info(f'正在爬取{url}')
  23.     try:
  24.         await tab.goto(url)
  25.         await tab.waitForSelector(selector,options={
  26.             'timeout':TIMEOUT * 1000
  27.         })
  28.     except TimeoutError:
  29.         logging.error(f'爬取{url}出现错误',exc_info=True)

  30. #爬取列表页
  31. async def scrape_index():
  32.     await scrape_url(url=index_url,selector='.title')



  33. #解析出详情页url
  34. async def parse_url():
  35.     return await tab.querySelectorAllEval('.title','nodes => nodes.map(node => node.href)')

  36. async def main():
  37.     await init()
  38.     try:
  39.         await scrape_index()
  40.         detail = await parse_url()
  41.         logging.info(f'url is {detail}')
  42.     finally:
  43.         await brower.close()


  44. if __name__ == '__main__':
  45.     asyncio.get_event_loop().run_until_complete(main())
复制代码


想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-7-31 10:29:53 | 显示全部楼层
要爬取动态网页并获取全部文章的URL,你可以使用Selenium WebDriver和Chrome浏览器来模拟用户操作下滑页面。这是修改后的代码示例:

  1. import logging
  2. from selenium import webdriver
  3. from selenium.webdriver.common.keys import Keys
  4. from selenium.webdriver.chrome.options import Options
  5. import time

  6. logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')

  7. index_url = 'https://www.jianshu.com/'

  8. # 设置Chrome浏览器选项
  9. chrome_options = Options()
  10. chrome_options.add_argument('--disable-infobars')
  11. chrome_options.add_argument('--window-size=1366,768')
  12. # 如果不想看到浏览器界面,则使用无头模式
  13. # chrome_options.add_argument('--headless')

  14. # 初始化WebDriver
  15. driver = webdriver.Chrome(options=chrome_options)

  16. # 打开网页
  17. driver.get(index_url)

  18. # 模拟下滑操作
  19. while True:
  20.     # 下滑到页面底部
  21.     driver.find_element_by_tag_name('body').send_keys(Keys.END)
  22.     time.sleep(1)  # 等待页面加载

  23.     # 判断是否已经滑到了底部
  24.     if driver.execute_script('return window.innerHeight + window.pageYOffset >= document.body.offsetHeight'):
  25.         break

  26. # 获取全部文章的URL
  27. urls = []
  28. elements = driver.find_elements_by_css_selector('.title')
  29. for element in elements:
  30.     urls.append(element.get_attribute('href'))

  31. # 输出结果
  32. logging.info(f'URLs: {urls}')

  33. # 关闭浏览器
  34. driver.quit()
复制代码


请注意,这个解决方案使用了Selenium库和Chrome浏览器驱动程序。确保你已经安装了相应的库并下载了对应版本的Chrome驱动程序。另外,你也可以根据需要调整代码中的延时时间和其他设置。
如果问题已经解决,请设置最佳答案
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-7-31 11:12:02 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-8-25 17:29:07 | 显示全部楼层
自己在浏览器上抓包看一下数据是从哪里来的。再进一步往下分析呢。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-1-14 14:07:37 | 显示全部楼层
用Reqable提取出来的数据内容太多了,我只想要电话和号码归属地
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-1-14 14:10:03 | 显示全部楼层
"https://thirdwx.qlogo.cn/mmopen/vi_32/DYAIOgq83er6n6kl9MnttwOYHhOvudQ8XAk1PDxRtJI9R7MTUClMxictGTOMSicHFialB849rb6ib48291xIp196UQ/132",
        "mobilePhone": "13606068124",
        "birthdate": null,
        "teacherName": null,
        "tag": null,
        "saleGrade": null,
        "wechatUserId": 61,
        "saleUserId": 171213,
        "disTime": "2023-12-30 20:12:02",
        "wxAddType": "1",
        "remark": "删",
        "intentionId": 305185,
        "teacherQwUserId": null,
        "intention": null,
        "intentionTime": null,
        "nickname": "***",
        "wxName": "***",
        "type": 2,
        "addAsk": false,
        "phoneOne": false,
        "phoneTwo": false,
        "workPhoneNum": 0,
        "msgNum": 0,
        "unionId": "oJJijuFMRwSO4d_pciJRAEYpFwHA",
        "modelLabel": null,
        "brandLabel": "未知",
        "gradeLabel": null,
        "saleGradeLabel": null,
        "platformLabel": "IOS手机",
        "sourcePlatformLabel": "IOS手机",
        "distributionLabel": null,
        "genderLabel": null,
        "tagLabel": null,
        "wxAddTypeLabel": "主动添加",
        "intentionLabel": null,
        "isMyAccount": true,
        "workNum": 0,
        "dateWorkNum": 0,
        "bpVO": {
          "id": 303752,
          "userId": 305377,
          "t": 33,
          "a": 0,
          "b": 2,
          "c": 1,
          "d": 30,
          "isDeleted": false,
          "createTime": "2023-12-30 20:12:03"
        },
        "qwList": null,
        "msgCount": null,
        "invitation": null,
        "toDoInfo": null,
        "repeatCount": null,
        "portrait": null,
        "learnNum": 1,
        "wareNum": 11
      }
    ],
    "total": 16237,
    "size": 100,
    "current": 1,
    "orders": [],
    "optimizeCountSql": true,
    "searchCount": true,
    "countId": null,
    "maxLimit": null,
    "pages": 163
  }
}
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-1 06:23

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表