鱼C论坛

 找回密码
 立即注册
查看: 2110|回复: 2

[已解决]爬取frame网页的问题

[复制链接]
发表于 2018-3-29 14:43:27 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
刚刚开始学爬虫,准备爬取公司内部的一个网页把网页内容提取出来存档, 网页效果如下, 我准备爬取左边导航栏每个选项点击进去后的内容, 里面分好几层


Snipaste_2018-03-29_14-36-25.png


现在还只是开始学写爬虫的初期, 写了下面一点点准备看一下能不能把网页打开

  1. import requests
  2. from bs4 import BeautifulSoup

  3. from requests.auth import HTTPBasicAuth

  4. headers = {
  5.     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
  6. }


  7. response = requests.get(url,auth=HTTPBasicAuth("username","password")) #这里把网页地址和用户名密码隐藏了 不方便展示


  8. soup = BeautifulSoup(response.text,'lxml')

  9. print(response.text)
复制代码



但是代码运行后只出现了以下输出, 貌似并没有对frameset里面的内容进行展开, 我也无法抓取里面的链接, 请问我需要学习哪部分的知识才能解决这个问题, 给我个思路就可以~~

谢谢!!

  1. <html>

  2. <head>
  3. <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
  4. <meta name="GENERATOR" content="Microsoft FrontPage 3.0">
  5. <meta name="Microsoft Border" content="none">
  6. <title>FPPS Home</title>
  7. </head>

  8. <frameset framespacing="0" border="false" frameborder="0" rows="128,*">
  9.   <frame name="banner" scrolling="auto" noresize target="contents"
  10.   src="home/&amp;frames_home/home_top.htm" style="border-bottom: 2px none rgb(0,0,255)"
  11.   marginwidth="0" marginheight="0">
  12.   <frameset cols="18*,85%">
  13.     <frame name="contents" target="main" src="home/&amp;frames_home/home_left.htm"
  14.     scrolling="auto" marginwidth="0" marginheight="0" style="border: 2px none rgb(0,0,255)">
  15.     <frame name="contents1" src="home/home_home.htm" scrolling="auto" marginwidth="1"
  16.     marginheight="1" style="border: 0px none; padding-left: 5; padding-top: 0">
  17.   </frameset>
  18.   <noframes>
  19.   <body>
  20.   <p>This page uses frames, but your browser doesn't support them.</p>
  21.   </body>
  22.   </noframes>
  23. </frameset>
  24. </html>
复制代码

最佳答案
2018-3-29 16:21:35
学scrapy
或者用bs抓第二层网页再用requests打开
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-3-29 16:21:35 From FishC Mobile | 显示全部楼层    本楼为最佳答案   
学scrapy
或者用bs抓第二层网页再用requests打开
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-3-29 16:28:22 | 显示全部楼层
大头目 发表于 2018-3-29 16:21
学scrapy
或者用bs抓第二层网页再用requests打开

好的谢谢!!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-9 21:21

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表