python新手求教！！爬取心食谱网页遇到的问题

米高熊 · 发表于 2016-8-5 10:31:46

各位论友好！我是python初学者，之前在网上看过一个用python3来爬取"心食谱"网站食谱有关参数的视频，然后自己也动手实践一下，遇到了一些难题。小弟第一次在论坛上发帖，格式不规范、问题描述不[/code]清楚请多多指点！
首先这是”心食谱“的某食谱栏目一个网址：http://www.xinshipu.com/zuofa/598775。（我不是来打广告的！！！！）
心食谱1.png

      我的目的是抓取图中信息：【干锅千叶豆腐】超级下饭越吃越过瘾，0.0分 0位评价，食谱号 598775 阅读 7,764次收藏 68次，乐悠厨房。
      首先我打开谷歌浏览器的开发者工具，点击network，清空当前页面，
       检查元素1.png

之后又重新刷新了一下网页，于是有了以下图片：
检查元素2.png

然后选择在开发者工具栏目上点击了“598755”.点击进去后，找到到了url=http://www.xinshipu.com/zuofa/598775
检查元素3.png

点击复制该链接，直接粘贴在谷歌浏览器的插件工具postman的url栏目上，看看能不能有对应的html代码。

于是我找到了有关我要抓取信息的html标签，所以我就觉得，该url可以产生包含我想要抓取的信息的html标签

于是我开始用编写python代码，用了BeautifulSoup和requests模块。代码如下：
代码1.png

然而结果，输出来的html代码并不含有关抓取的信息的便签，同时不输出含有食谱号，收藏次数的html代码。

这是为什么呢？为什么之前postman检测该url时都含有下图被选中的html代码，而用beautifulsoup解析后却没有了？
结果2.png

请各位论友指点指点！！多谢！！！

米高熊 · 发表于 2016-8-5 13:44:59

KeMoing 发表于 2016-8-5 13:11
过来看一看

哥们，你有解决方案吗

SixPy · 发表于 2016-8-5 14:11:23

代码一定要用代码格式发布
别帖在图片里

冬菇茶 · 发表于 2016-8-5 14:21:33

本帖最后由冬菇茶于 2016-8-5 14:24 编辑

res=requests.get(url,headers=headers)

# encoding:utf-8
import requests
import html.parser
from bs4 import BeautifulSoup
url="http://www.xinshipu.com/zuofa/598775"
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2486.0 Safari/537.36 Edge/13.10586"}
res=requests.get(url,headers=headers)
soup=BeautifulSoup(res.text,"html.parser")
print(soup.select(".mt12"))

复制代码

米高熊 · 发表于 2016-8-5 15:04:12

SixPy 发表于 2016-8-5 14:11
代码一定要用代码格式发布
别帖在图片里

多谢提醒！！！我会注意的

米高熊 · 发表于 2016-8-5 15:11:06

冬菇茶发表于 2016-8-5 14:21
res=requests.get(url,headers=headers)

多谢你的答案！！！！！有想到没有打headers=headsers会产生这么大的错误。幸亏有你的提醒，不然我以后还会犯这样的错误！！谢谢

米高熊 · 发表于 2016-8-5 17:27:20

SixPy 发表于 2016-8-5 14:11
代码一定要用代码格式发布
别帖在图片里

楼主，你好，先请教下，代码在哪里贴？因为我在发帖的时候找不到在哪里贴，求告知

SixPy · 发表于 2016-8-5 17:29:45

米高熊发表于 2016-8-5 17:27
楼主，你好，先请教下，代码在哪里贴？因为我在发帖的时候找不到在哪里贴，求告知

回复框，有个笑脸表情，它左边 <>

米高熊 · 发表于 2016-8-5 17:31:46

SixPy 发表于 2016-8-5 17:29
回复框，有个笑脸表情，它左边

谢谢楼主，找到了

yintotti · 发表于 2016-8-5 21:13:01

新手表示完全不懂

米高熊 · 发表于 2016-8-5 21:39:48

yintotti 发表于 2016-8-5 21:13
新手表示完全不懂

没事慢慢学。我也是新手。

yintotti · 发表于 2016-8-7 10:05:12

有专门讲循环的视频的吗

GhostJane · 发表于 2016-8-8 10:40:25

楼主学的很快啊

小月from1988 · 发表于 2016-8-27 17:06:09

新手好厉害，抓紧学习，希望有一天自己也可以抓紧用起来~

米高熊 · 发表于 2016-9-5 16:22:00

小月from1988 发表于 2016-8-27 17:06
新手好厉害，抓紧学习，希望有一天自己也可以抓紧用起来~

我现在不怎么搞爬虫了，因为学会了怎么抓取网页数据就差不多了，因为我想学数据科学和机器学习。如果有兴趣，可以一起组队，不过我最近都在找工作和学习计算机专业的内容，因为我想从电气专业转到计算机专业，所以要学计算机好多好多基础课。等我找到工作后，再与大家分析我这个暑假学的内容吧。

小月from1988 · 发表于 2016-9-6 08:31:28

米高熊发表于 2016-9-5 16:22
我现在不怎么搞爬虫了，因为学会了怎么抓取网页数据就差不多了，因为我想学数据科学和机器学习。如果有兴 ...

好，喜欢组队。我是数学专业的，最近也在学习计算机知识，对机器学习很感兴趣，你们专业涉及到这个方向吗？希望可以有机会请教~

米高熊 · 发表于 2016-9-8 14:54:24

小月from1988 发表于 2016-9-6 08:31
好，喜欢组队。我是数学专业的，最近也在学习计算机知识，对机器学习很感兴趣，你们专业涉及到这个方向吗 ...

我们是电气专业的，主要偏向于自动化，但是在鱼c论坛学习了python语言，觉得python挺不错的，然后听说python还有scikit learn可以用来机器学习的，从此走上不归路。你是数学专业的，那就更好了，以后有什么不懂还得请教请教你

小月from1988 · 发表于 2016-9-8 19:03:15

米高熊发表于 2016-9-8 14:54
我们是电气专业的，主要偏向于自动化，但是在鱼c论坛学习了python语言，觉得python挺不错的，然后听说pyt ...

FRFEReee

小月from1988 · 发表于 2016-9-8 21:00:00

米高熊发表于 2016-9-8 14:54
我们是电气专业的，主要偏向于自动化，但是在鱼c论坛学习了python语言，觉得python挺不错的，然后听说pyt ...

互相学习

账号		自动登录	找回密码
密码			立即注册

python新手求教！！爬取心食谱网页遇到的问题

评分