python爬虫问题

ljj19971222 · 发表于 2019-9-20 13:48:45

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import re
import os
def open_url(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Mobile Safari/537.36')
response=urllib.request.urlopen(req)
html=response.read().decode('utf-8')
return html

def get_img(html):
reg=r'<img class="BDE_Image" pic_type="0" width="560" height="560" src="([^"]+\.jpg)"'
imglist=re.findall(reg,html)
print(imglist) ////返回空列表
'''
print("一共有")
print(len(imglist))

for each in imglist:
      print(each)
      print("yes!")
for each in imglist:
      filename = each.split("/")[-1]
      urllib.request.urlretrieve(each,filename,None)
'''
if __name__=='__main__':
url='https://tieba.baidu.com/p/6216578674'
get_img(open_url(url))

真的不知道问题出在哪，弄了一上午快哭了！最后只返回[]这个

ljj19971222 · 发表于 2019-9-20 14:08:16

来个人帮忙解答一下吧

yuweb · 发表于 2019-9-20 14:32:03

本帖最后由 yuweb 于 2019-9-21 08:40 编辑

findall
在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

语法格式为：

findall(string[, pos[, endpos]])
参数：

string : 待匹配的字符串。
pos : 可选参数，指定字符串的起始位置，默认为 0。
endpos : 可选参数，指定字符串的结束位置，默认为字符串的长度。

open_url(url)里返回的html有问题

import re
import os
import requests
import bs4

def open_url(url):
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
html = requests.get(url,headers = headers)
return html

def get_img(html):
file_name = 'image2.html'
with open(file_name,'w',encoding='utf-8') as file_obj:
      file_obj.write(html.text)

soup = bs4.BeautifulSoup(html.text,"lxml")
content = soup.select("img.BDE_Image")

print(content)
'''
print("一共有")
print(len(imglist))

for each in imglist:
      print(each)
      print("yes!")
for each in imglist:
      filename = each.split("/")[-1]
      urllib.request.urlretrieve(each,filename,None)
'''
if __name__=='__main__':
url='https://tieba.baidu.com/p/6216578674'
get_img(open_url(url))

ljj19971222 · 发表于 2019-9-20 15:42:11

yuweb 发表于 2019-9-20 14:32
findall
在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表 ...

def findall(pattern, string, flags=0)我知道这个，但是为什么会匹配失败啊？
原图片就是这样的<img class="BDE_Image" pic_type="0" width="560" height="560" src="https://imgsa.baidu.com/forum/w%3D580/sign=22d642fd00f41bd5da53e8fc61d881a0/4cfff203918fa0ec5732c1db289759ee3c6ddb1a.jpg">
那我这个正则表达式匹配到src应该没什么问题吧？为什么会返回[]呢？

yuweb · 发表于 2019-9-20 16:05:47

import re
import os
import requests
import bs4
def open_url(url):
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
html = requests.get(url,headers = headers)
return html
def get_img(html):
file_name = 'image2.html'
with open(file_name,'w',encoding='utf-8') as file_obj:
file_obj.write(html.text)
soup = bs4.BeautifulSoup(html.text,"lxml")
content = soup.select("img.BDE_Image")
print(content)
'''
print("一共有")
print(len(imglist))
for each in imglist:
print(each)
print("yes!")
for each in imglist:
filename = each.split("/")[-1]
urllib.request.urlretrieve(each,filename,None)
'''
if __name__=='__main__':
url='https://tieba.baidu.com/p/6216578674'
get_img(open_url(url))

复制代码

ljj19971222 · 发表于 2019-9-20 16:11:54

yuweb 发表于 2019-9-20 14:32
findall
在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表 ...

刚才在我同学电脑上试了一下他的可以正常运行我的代码，但是我的就显示空列表，是什么的原因，证书的原因吗

yuweb · 发表于 2019-9-20 16:14:10

给你一个bs4做的

import re
import os
import requests
import bs4
def open_url(url):
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
html = requests.get(url,headers = headers)
return html
def get_img(html):
file_name = 'image2.html'
with open(file_name,'w',encoding='utf-8') as file_obj:
file_obj.write(html.text)
soup = bs4.BeautifulSoup(html.text,"lxml")
content = soup.select("img.BDE_Image")
print(content)
'''
print("一共有")
print(len(imglist))
for each in imglist:
print(each)
print("yes!")
for each in imglist:
filename = each.split("/")[-1]
urllib.request.urlretrieve(each,filename,None)
'''
if __name__=='__main__':
url='https://tieba.baidu.com/p/6216578674'
get_img(open_url(url))

复制代码

yuweb · 发表于 2019-9-20 16:19:58

楼主你open_url(url)方法中返回的html有问题
可以保存到本地文件中，然后查看一下，跟原网页的html源代码不同的

ljj19971222 · 发表于 2019-9-20 16:41:11

yuweb 发表于 2019-9-20 16:19
楼主你open_url(url)方法中返回的html有问题
可以保存到本地文件中，然后查看一下，跟原网页的html源代码 ...

我找到问题所在了。
我的User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Mobile Safari/537.36为这个但是我是用windows进行访问的不知道为啥会被当做linux
这个是我同学的Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36，我用他的替换一下就成功了，不知道为啥我所有的都被算作linux，不知道有什么解决办法

yuweb · 发表于 2019-9-20 16:49:24

ljj19971222 发表于 2019-9-20 16:41
我找到问题所在了。
我的User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWe ...

我贴了个代码，还没通过审核，你等等

ljj19971222 · 发表于 2019-9-20 16:59:44

yuweb 发表于 2019-9-20 16:49
我贴了个代码，还没通过审核，你等等

好的

ljj19971222 · 发表于 2019-9-20 18:39:46

yuweb 发表于 2019-9-20 16:49
我贴了个代码，还没通过审核，你等等

emmm怎么还没通过呀，是不是没提交成功

yuweb · 发表于 2019-9-21 08:44:34

本帖最后由 yuweb 于 2019-9-21 08:46 编辑

不好意思，一直没过，我提交了好几遍，审核好慢啊，楼主看看要不要把重复的楼层删了（看6楼的就好）

账号		自动登录	找回密码
密码			立即注册