鱼C论坛

 找回密码
 立即注册
查看: 875|回复: 2

[已解决]爬虫的一些问题,求大佬们解惑

[复制链接]
发表于 2020-4-17 11:11:56 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
大佬们球解惑
爬取了美团,能够正常打印html,但是在解析html的时候出现了问题
什么结果也没有,就运行完了
代码如下:
————————————————————————————————————
import urllib.request,urllib.error
from bs4 import BeautifulSoup
import pandas as pd
import re
import pprint
baseurl = "https://bj.meituan.com/meishi/pn"

def askURL(url):
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36"
    }  #模拟

    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        #print(html)   #测试能否找到网页
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

    return html

def getData(baseurl):
    datalist = []
    for i in range(1,68):
        url = baseurl + str(i) + "/"
        html = askURL(url)    #保存获取到的网页源码
        #逐一解析
        soup = BeautifulSoup(html,"html.parser")
        for each in soup.find_all("div",class_="info") :   #查找"li",class="clear btm"和"div",class_="info"都没有输出
            print(each)
getData(baseurl)
——————————————————————————————
最佳答案
2020-4-17 11:37:52
你先在打印的html文档里看看有没有"li",class="clear btm"和"div",class_="info",
如果都没有,你要找的数据应该是存在动态包里,不能直接通过bs4解析html获取
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-17 11:37:52 | 显示全部楼层    本楼为最佳答案   
你先在打印的html文档里看看有没有"li",class="clear btm"和"div",class_="info",
如果都没有,你要找的数据应该是存在动态包里,不能直接通过bs4解析html获取
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2020-4-17 16:03:43 | 显示全部楼层
酒醉三分醒 发表于 2020-4-17 11:37
你先在打印的html文档里看看有没有"li",class="clear btm"和"div",class_="info",
如果都没有,你要找的 ...

好的谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-26 14:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表