鱼C论坛

 找回密码
 立即注册
查看: 4479|回复: 18

python新手求教!!爬取心食谱网页遇到的问题

[复制链接]
发表于 2016-8-5 10:31:46 | 显示全部楼层 |阅读模式
1鱼币

        各位论友好!我是python初学者,之前在网上看过一个用python3来爬取"心食谱"网站食谱有关参数的视频,然后自己也动手实践一下,遇到了一些难题。小弟第一次在论坛上发帖,格式不规范、问题描述不[/code]清楚请多多指点!
        首先这是”心食谱“的某食谱栏目一个网址:http://www.xinshipu.com/zuofa/598775。(我不是来打广告的!!!!)
心食谱1.png

        我的目的是抓取图中信息:【干锅千叶豆腐】超级下饭越吃越过瘾,0.0分 0位评价,食谱号 598775 阅读 7,764次 收藏 68次,乐悠厨房。
        首先我打开谷歌浏览器的开发者工具,点击network,清空当前页面,
         检查元素1.png

        之后又重新刷新了一下网页,于是有了以下图片:
         检查元素2.png

         然后选择在开发者工具栏目上点击了“598755”.点击进去后,找到到了url=http://www.xinshipu.com/zuofa/598775
         检查元素3.png

       点击复制该链接,直接粘贴在谷歌浏览器的插件工具postman的url栏目上,看看能不能有对应的html代码。
       postman1.png

       于是我找到了有关我要抓取信息的html标签,所以我就觉得,该url可以产生包含我想要抓取的信息的html标签
         postman2.png

        于是我开始用编写python代码,用了BeautifulSoup和requests模块。代码如下:
         代码1.png

        然而结果,输出来的html代码并不含有关抓取的信息的便签,同时不输出含有食谱号,收藏次数的html代码。
        

         这是为什么呢?为什么之前postman检测该url时都含有下图被选中的html代码,而用beautifulsoup解析后却没有了?   
          结果2.png      
          请各位论友指点指点!!多谢!!!                  


结果1.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-8-5 13:44:59 | 显示全部楼层

哥们,你有解决方案吗
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-8-5 14:11:23 | 显示全部楼层
代码一定要用代码格式发布
别帖在图片里
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-8-5 14:21:33 | 显示全部楼层
本帖最后由 冬菇茶 于 2016-8-5 14:24 编辑

res=requests.get(url,headers=headers)

  1. # encoding:utf-8
  2. import requests
  3. import html.parser
  4. from bs4 import BeautifulSoup

  5. url="http://www.xinshipu.com/zuofa/598775"
  6. headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2486.0 Safari/537.36 Edge/13.10586"}
  7. res=requests.get(url,headers=headers)
  8. soup=BeautifulSoup(res.text,"html.parser")
  9. print(soup.select(".mt12"))
复制代码


结果.png

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
米高熊 + 5 + 5 + 3

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-8-5 15:04:12 | 显示全部楼层
SixPy 发表于 2016-8-5 14:11
代码一定要用代码格式发布
别帖在图片里

多谢提醒!!!我会注意的
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-8-5 15:11:06 | 显示全部楼层
冬菇茶 发表于 2016-8-5 14:21
res=requests.get(url,headers=headers)

多谢你的答案!!!!!有想到没有打headers=headsers会产生这么大的错误。幸亏有你的提醒,不然我以后还会犯这样的错误!!谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-8-5 17:27:20 | 显示全部楼层
SixPy 发表于 2016-8-5 14:11
代码一定要用代码格式发布
别帖在图片里

楼主,你好,先请教下,代码在哪里贴?因为我在发帖的时候找不到在哪里贴,求告知

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-8-5 17:29:45 | 显示全部楼层
米高熊 发表于 2016-8-5 17:27
楼主,你好,先请教下,代码在哪里贴?因为我在发帖的时候找不到在哪里贴,求告知

回复框,有个笑脸表情,它左边 <>
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-8-5 17:31:46 | 显示全部楼层
SixPy 发表于 2016-8-5 17:29
回复框,有个笑脸表情,它左边

谢谢楼主,找到了
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-8-5 21:13:01 | 显示全部楼层
新手表示完全不懂
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-8-5 21:39:48 | 显示全部楼层
yintotti 发表于 2016-8-5 21:13
新手表示完全不懂

没事慢慢学。我也是新手。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-8-7 10:05:12 | 显示全部楼层
有专门讲循环的视频的吗
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-8-8 10:40:25 | 显示全部楼层
楼主学的很快啊
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-8-27 17:06:09 | 显示全部楼层
新手好厉害,抓紧学习,希望有一天自己也可以抓紧用起来~
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-9-5 16:22:00 | 显示全部楼层
小月from1988 发表于 2016-8-27 17:06
新手好厉害,抓紧学习,希望有一天自己也可以抓紧用起来~

我现在不怎么搞爬虫了,因为学会了怎么抓取网页数据就差不多了,因为我想学数据科学和机器学习。如果有兴趣,可以一起组队,不过我最近都在找工作和学习计算机专业的内容,因为我想从电气专业转到计算机专业,所以要学计算机好多好多基础课。等我找到工作后,再与大家分析我这个暑假学的内容吧。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-9-6 08:31:28 | 显示全部楼层
米高熊 发表于 2016-9-5 16:22
我现在不怎么搞爬虫了,因为学会了怎么抓取网页数据就差不多了,因为我想学数据科学和机器学习。如果有兴 ...

好,喜欢组队。我是数学专业的,最近也在学习计算机知识,对机器学习很感兴趣,你们专业涉及到这个方向吗?希望可以有机会请教~
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-9-8 14:54:24 | 显示全部楼层
小月from1988 发表于 2016-9-6 08:31
好,喜欢组队。我是数学专业的,最近也在学习计算机知识,对机器学习很感兴趣,你们专业涉及到这个方向吗 ...

我们是电气专业的,主要偏向于自动化,但是在鱼c论坛学习了python语言,觉得python挺不错的,然后听说python还有scikit learn可以用来机器学习的,从此走上不归路。你是数学专业的,那就更好了,以后有什么不懂还得请教请教你
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-9-8 19:03:15 | 显示全部楼层
米高熊 发表于 2016-9-8 14:54
我们是电气专业的,主要偏向于自动化,但是在鱼c论坛学习了python语言,觉得python挺不错的,然后听说pyt ...

FRFEReee
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-9-8 21:00:00 | 显示全部楼层
米高熊 发表于 2016-9-8 14:54
我们是电气专业的,主要偏向于自动化,但是在鱼c论坛学习了python语言,觉得python挺不错的,然后听说pyt ...

互相学习
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-22 02:02

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表