python爬虫问题
import urllib.requestimport re
import os
def open_url(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Mobile Safari/537.36')
response=urllib.request.urlopen(req)
html=response.read().decode('utf-8')
return html
def get_img(html):
reg=r'<img class="BDE_Image" pic_type="0" width="560" height="560" src="([^"]+\.jpg)"'
imglist=re.findall(reg,html)
print(imglist) ////返回空列表
'''
print("一共有")
print(len(imglist))
for each in imglist:
print(each)
print("yes!")
for each in imglist:
filename = each.split("/")[-1]
urllib.request.urlretrieve(each,filename,None)
'''
if __name__=='__main__':
url='https://tieba.baidu.com/p/6216578674'
get_img(open_url(url))
真的不知道问题出在哪,弄了一上午快哭了!最后只返回[]这个 {:10_266:}来个人帮忙解答一下吧 本帖最后由 yuweb 于 2019-9-21 08:40 编辑
findall
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
语法格式为:
findall(string[, pos[, endpos]])
参数:
string : 待匹配的字符串。
pos : 可选参数,指定字符串的起始位置,默认为 0。
endpos : 可选参数,指定字符串的结束位置,默认为字符串的长度。
open_url(url)里返回的html有问题
import re
import os
import requests
import bs4
def open_url(url):
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
html = requests.get(url,headers = headers)
return html
def get_img(html):
file_name = 'image2.html'
with open(file_name,'w',encoding='utf-8') as file_obj:
file_obj.write(html.text)
soup = bs4.BeautifulSoup(html.text,"lxml")
content = soup.select("img.BDE_Image")
print(content)
'''
print("一共有")
print(len(imglist))
for each in imglist:
print(each)
print("yes!")
for each in imglist:
filename = each.split("/")[-1]
urllib.request.urlretrieve(each,filename,None)
'''
if __name__=='__main__':
url='https://tieba.baidu.com/p/6216578674'
get_img(open_url(url))
yuweb 发表于 2019-9-20 14:32
findall
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表 ...
def findall(pattern, string, flags=0)我知道这个,但是为什么会匹配失败啊?
原图片就是这样的<img class="BDE_Image" pic_type="0" width="560" height="560" src="https://imgsa.baidu.com/forum/w%3D580/sign=22d642fd00f41bd5da53e8fc61d881a0/4cfff203918fa0ec5732c1db289759ee3c6ddb1a.jpg">
那我这个正则表达式匹配到src应该没什么问题吧?为什么会返回[]呢? import re
import os
import requests
import bs4
def open_url(url):
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
html = requests.get(url,headers = headers)
return html
def get_img(html):
file_name = 'image2.html'
with open(file_name,'w',encoding='utf-8') as file_obj:
file_obj.write(html.text)
soup = bs4.BeautifulSoup(html.text,"lxml")
content = soup.select("img.BDE_Image")
print(content)
'''
print("一共有")
print(len(imglist))
for each in imglist:
print(each)
print("yes!")
for each in imglist:
filename = each.split("/")[-1]
urllib.request.urlretrieve(each,filename,None)
'''
if __name__=='__main__':
url='https://tieba.baidu.com/p/6216578674'
get_img(open_url(url))
yuweb 发表于 2019-9-20 14:32
findall
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表 ...
刚才在我同学电脑上试了一下他的可以正常运行我的代码,但是我的就显示空列表,是什么的原因,证书的原因吗 给你一个bs4做的
import re
import os
import requests
import bs4
def open_url(url):
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
html = requests.get(url,headers = headers)
return html
def get_img(html):
file_name = 'image2.html'
with open(file_name,'w',encoding='utf-8') as file_obj:
file_obj.write(html.text)
soup = bs4.BeautifulSoup(html.text,"lxml")
content = soup.select("img.BDE_Image")
print(content)
'''
print("一共有")
print(len(imglist))
for each in imglist:
print(each)
print("yes!")
for each in imglist:
filename = each.split("/")[-1]
urllib.request.urlretrieve(each,filename,None)
'''
if __name__=='__main__':
url='https://tieba.baidu.com/p/6216578674'
get_img(open_url(url))
楼主你open_url(url)方法中返回的html有问题
可以保存到本地文件中,然后查看一下,跟原网页的html源代码不同的
yuweb 发表于 2019-9-20 16:19
楼主你open_url(url)方法中返回的html有问题
可以保存到本地文件中,然后查看一下,跟原网页的html源代码 ...
我找到问题所在了。
我的User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Mobile Safari/537.36为这个但是我是用windows进行访问的不知道为啥会被当做linux
这个是我同学的Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36,我用他的替换一下就成功了,不知道为啥我所有的都被算作linux,不知道有什么解决办法 ljj19971222 发表于 2019-9-20 16:41
我找到问题所在了。
我的User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWe ...
我贴了个代码,还没通过审核,你等等 yuweb 发表于 2019-9-20 16:49
我贴了个代码,还没通过审核,你等等
好的{:5_110:} yuweb 发表于 2019-9-20 16:49
我贴了个代码,还没通过审核,你等等
emmm怎么还没通过呀,是不是没提交成功 本帖最后由 yuweb 于 2019-9-21 08:46 编辑
不好意思,一直没过,我提交了好几遍,审核好慢啊,楼主看看要不要把重复的楼层删了(看6楼的就好)
页:
[1]