|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
大佬们球解惑
爬取了美团,能够正常打印html,但是在解析html的时候出现了问题
什么结果也没有,就运行完了
代码如下:
————————————————————————————————————
import urllib.request,urllib.error
from bs4 import BeautifulSoup
import pandas as pd
import re
import pprint
baseurl = "https://bj.meituan.com/meishi/pn"
def askURL(url):
head = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36"
} #模拟
request = urllib.request.Request(url,headers=head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
#print(html) #测试能否找到网页
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html
def getData(baseurl):
datalist = []
for i in range(1,68):
url = baseurl + str(i) + "/"
html = askURL(url) #保存获取到的网页源码
#逐一解析
soup = BeautifulSoup(html,"html.parser")
for each in soup.find_all("div",class_="info") : #查找"li",class="clear btm"和"div",class_="info"都没有输出
print(each)
getData(baseurl)
——————————————————————————————
你先在打印的html文档里看看有没有"li",class="clear btm"和"div",class_="info",
如果都没有,你要找的数据应该是存在动态包里,不能直接通过bs4解析html获取
|
|