[已解决]Python爬虫，运行一下报错一大片

苏绛雪 · 发表于 2020-2-14 22:08:32

我的python爬虫报错，

mport requests
import re
Headers = {
'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
response=requests.get("https://www.vmgirls.com/9384.html",headers=Headers)
#print(response.request.headers)
html=response.text
#print(html)
print("------------------------------------------------------------------------------------------------")
s=re.findall('<img alt=".*?" src="(.*?)" >',html)
print(s)

复制代码

图片如下：

最佳答案

冬雪雪冬

2020-2-14 22:08:33

1.我运行了你的程序，没有出错，但也没有输出，建议重装requests库。
2.用re不如用bs4方便。我用bs4修改了你的程序，供参考。

import requests
import bs4
Headers = {
'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
response=requests.get("https://www.vmgirls.com/9384.html",headers=Headers)
#print(response.request.headers)
html=response.text
soup = bs4.BeautifulSoup(html, "html.parser")
result = soup.find_all("img", class_="alignnone size-full")
for each in result:
print(each["data-src"])

复制代码

复制代码

冬雪雪冬 · 发表于 2020-2-14 22:08:33

1.我运行了你的程序，没有出错，但也没有输出，建议重装requests库。
2.用re不如用bs4方便。我用bs4修改了你的程序，供参考。

import requests
import bs4
Headers = {
'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
response=requests.get("https://www.vmgirls.com/9384.html",headers=Headers)
#print(response.request.headers)
html=response.text
soup = bs4.BeautifulSoup(html, "html.parser")
result = soup.find_all("img", class_="alignnone size-full")
for each in result:
print(each["data-src"])

复制代码

复制代码

沉好人 · 发表于 2020-2-15 14:49:34

程序没出错，但没输出，改了一下

import requests
import re
Headers = {
'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
response=requests.get("https://www.vmgirls.com/9384.html",headers=Headers)
#print(response.request.headers)
html=response.text
print("------------------------------------------------------------------------------------------------")
s=re.findall('size-full" data-src="(https:[^"]+\.jpg)',html)
for each in s:
print(each)

复制代码

米多花 · 发表于 2020-2-15 16:06:21

报的错是说请求超时，即这个网站无法访问，有几种原因：这个网站被墙了，你访问不了；或者你的网络有问题。

我换了一个网站，访问正常。另外你的正则表达式写得不严谨，我帮你改了一下。运行之前请你确认安装了requests模块

import requests
import re
Headers = {
'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
response = requests.get(
"https://www.meitulu.com/item/3289.html", headers=Headers)
# print(response.request.headers)
html = response.text
# print(html)
print("------------------------------------------------------------------------------------------------")
s = re.findall('<img[^>]*?src=[\'"]([^\'"]*?jpg)[\'"][^>]*?>',
html, flags=re.I | re.M | re.S)
print(s)

复制代码

结果：

复制代码

账号		自动登录	找回密码
密码			立即注册