鱼C论坛

 找回密码
 立即注册
查看: 1088|回复: 12

[已解决]python爬取网页时报对象没有属性但是网页中有此元素

[复制链接]
发表于 2019-4-3 16:14:56 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
1.网站:http://cp.zgzcw.com/lottery/jchtplayvsForJsp.action?lotteryId=48&type=jcmini&issue=2019-03-06
2.代码:
import re
import bs4
import requests
#读取网页
http="http://cp.zgzcw.com/lottery/jchtplayvsForJsp.action?lotteryId=48&type=jcmini&issue=2019-03-06"
visit = requests.get(http)
parser = bs4.BeautifulSoup(visit.text, "html.parser")
#主队Home team

def Visiting_team():
targets = parser.find_all("td",class_="wh-6 t-l")
for each in targets:
print(each.a.text)
return

#输出
Visiting_team()

最佳答案
2019-4-8 14:19:58
本帖最后由 1239890175 于 2019-4-8 14:28 编辑
  1. import re
  2. import bs4
  3. import requests


  4. def Visiting_team(parser):
  5.         targets = parser.find_all("td", attrs={'class':"wh-6 t-l"})
  6.         for each in targets:
  7.                 print(each.a.text)

  8.         #读取网页
  9. http="http://cp.zgzcw.com/lottery/jchtplayvsForJsp.action?lotteryId=48&type=jcmini&issue=2019-03-06"
  10. visit = requests.get(http)
  11. parser = bs4.BeautifulSoup(visit.text, "lxml")
  12. #主队Home team


  13. #输出
  14. Visiting_team(parser)
复制代码



主要的问题
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-4-3 18:39:26 | 显示全部楼层
这是js渲染出来的元素,用不了bs4
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-3 19:04:44 From FishC Mobile | 显示全部楼层
看看网页源代码里面有没有
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-8 11:22:24 | 显示全部楼层
mongoole 发表于 2019-4-3 19:04
看看网页源代码里面有没有

网页源代码里有,但是代码里爬不出来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-8 11:23:12 | 显示全部楼层
wongyusing 发表于 2019-4-3 18:39
这是js渲染出来的元素,用不了bs4

请大神指导下,我该怎么写啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-8 11:56:38 | 显示全部楼层
我也在爬类似的数据,同问
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-8 12:21:44 | 显示全部楼层
efeng8411676 发表于 2019-4-8 11:56
我也在爬类似的数据,同问

幸会幸会
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-8 14:19:58 | 显示全部楼层    本楼为最佳答案   
本帖最后由 1239890175 于 2019-4-8 14:28 编辑
  1. import re
  2. import bs4
  3. import requests


  4. def Visiting_team(parser):
  5.         targets = parser.find_all("td", attrs={'class':"wh-6 t-l"})
  6.         for each in targets:
  7.                 print(each.a.text)

  8.         #读取网页
  9. http="http://cp.zgzcw.com/lottery/jchtplayvsForJsp.action?lotteryId=48&type=jcmini&issue=2019-03-06"
  10. visit = requests.get(http)
  11. parser = bs4.BeautifulSoup(visit.text, "lxml")
  12. #主队Home team


  13. #输出
  14. Visiting_team(parser)
复制代码



主要的问题
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-8 14:21:39 | 显示全部楼层
你需要的是图示的内容吧:
我对bs4不是太熟悉。。。这些数据可以用xpath拿出来的
希望对你有用。
部分代码:
  1. #coding:utf-8

  2. import requests
  3. from lxml import etree

  4. url = 'http://cp.zgzcw.com/lottery/jchtplayvsForJsp.action?lotteryId=48&type=jcmini&issue=2019-03-06'
  5. headers = {
  6.     'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)'}

  7. html = requests.get(url, headers=headers).text
  8. selector = etree.HTML(html)

  9. number = selector.xpath('//*[@id="hide_box_1"]/tbody/tr/td[1]/a/i/text()')

  10. competition = selector.xpath('//*[@id="hide_box_1"]/tbody/tr/td[2]/span/text()')

  11. score = selector.xpath('//*[@id="hide_box_1"]/tbody/tr/td[3]/span[1]/text()')

  12. print(number,competition,score)
复制代码
QQ截图20190408141426.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2019-4-8 14:27:30 | 显示全部楼层
moyk 发表于 2019-4-8 11:23
请大神指导下,我该怎么写啊

我看错了,擦。
你用bs4的select方法来select tbody标签就行了。
也可以用pandas直接获取
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2019-4-8 15:55:16 | 显示全部楼层
mongoole 发表于 2019-4-8 14:21
你需要的是图示的内容吧:
我对bs4不是太熟悉。。。这些数据可以用xpath拿出来的
希望对你有用。

非常感谢,但是我没学过这lxml解析数据
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-8 16:09:38 | 显示全部楼层

parser = bs4.BeautifulSoup(visit.text, "lxml") "lxml"是什么意思啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-8 16:22:04 | 显示全部楼层
moyk 发表于 2019-4-8 16:09
parser = bs4.BeautifulSoup(visit.text, "lxml") "lxml"是什么意思啊

解析方式,详情直接百度
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-28 16:30

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表