[已解决]一段抓取知乎妹子的爬虫代码不能正常运行

xilingtu · 发表于 2016-9-17 10:42:54

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

一段抓取知乎妹子的爬虫代码不能正常运行，总是出现问题说缩进有问题，但是我找不出来在哪里，请大神帮忙找找并修改！谢谢！
问题：运行时总显示unexpected indet
源码如下：
#encoding:utf-8
import urllib.request
import urllib
import re
import os
from bs4 import BeautifulSoup

url='https://www.zhihu.com/question/40753170'
urlop=urllib.request.urlopen(url)
data=urlop.read().decode('utf-8')
bs=BeautifulSoup(data)

def gettitle(url):
title=bs.find('span',{"class":"zm-editable-content"})#找到标题
title=title.get_text()
return(title)

def getpicurl(url):#得到图片链接
pics=re.compile('img.+?src=\"(https.+?)\"')
#pics=re.compile('img.+?src=(https.+?)')
return(pics)

def downpics():
title=gettitle(url)
print(title)
dirpath='f:/知乎/'+title+"/"
if not os.path.exists(dirpath):
      os.makedirs(dirpath)#生成了问题标题相应的文件夹
pics=getpicurl(url)
a=1
urls=[]
for x in pics.findall(data):#去除重复的图片链接
      if x not in urls:
         urls.append(x)
for x in urls:
try:
            imgdata=urllib.request.urlopen(x).read()
            b = (x.rfind("."))
            imgpath=str(dirpath)+str(a)+x[b:]
print(imgpath)
print(x)
            a+=1
            file=open(imgpath,'wb')
            file.write(imgdata)
            file.flush()
            file.close()
except:
continue
downpics();

最佳答案

月排行榜 / 总排行榜

无符号整形

2016-9-17 11:28:18

本帖最后由无符号整形于 2016-9-17 11:33 编辑

def gettitle(url):
title=bs.find('span',{"class":"zm-editable-content"})#找到标题
title=title.get_text()
return(title)

复制代码

=>

def gettitle(url):
title=bs.find('span',{"class":"zm-editable-content"})#找到标题
title=title.get_text()
return(title)

复制代码

for x in urls:
try:
imgdata=urllib.request.urlopen(x).read()
b = (x.rfind("."))
imgpath=str(dirpath)+str(a)+x[b:]
print(imgpath)
print(x)
a+=1
file=open(imgpath,'wb')
file.write(imgdata)
file.flush()
file.close()
except:
continue

复制代码

=>

for x in urls:
try:
imgdata=urllib.request.urlopen(x).read()
b = (x.rfind("."))
imgpath=str(dirpath)+str(a)+x[b:]
print(imgpath)
print(x)
a+=1
file=open(imgpath,'wb')
file.write(imgdata)
file.flush()
file.close()
except:
continue

复制代码

def downpics():
title=gettitle(url)
print(title)
dirpath='f:/知乎/'+title+"/"
if not os.path.exists(dirpath):
os.makedirs(dirpath)#生成了问题标题相应的文件夹
pics=getpicurl(url)
a=1
urls=[]

复制代码

=>

def downpics():
title=gettitle(url)
print(title)
dirpath='f:/知乎/'+title+"/"
if not os.path.exists(dirpath):
os.makedirs(dirpath)#生成了问题标题相应的文件夹
pics=getpicurl(url)
a=1
urls=[]

复制代码

跳转到最佳答案楼层

无符号整形 · 发表于 2016-9-17 11:28:18

本帖最后由无符号整形于 2016-9-17 11:33 编辑

def gettitle(url):
title=bs.find('span',{"class":"zm-editable-content"})#找到标题
title=title.get_text()
return(title)

复制代码

=>

def gettitle(url):
title=bs.find('span',{"class":"zm-editable-content"})#找到标题
title=title.get_text()
return(title)

复制代码

for x in urls:
try:
imgdata=urllib.request.urlopen(x).read()
b = (x.rfind("."))
imgpath=str(dirpath)+str(a)+x[b:]
print(imgpath)
print(x)
a+=1
file=open(imgpath,'wb')
file.write(imgdata)
file.flush()
file.close()
except:
continue

复制代码

=>

for x in urls:
try:
imgdata=urllib.request.urlopen(x).read()
b = (x.rfind("."))
imgpath=str(dirpath)+str(a)+x[b:]
print(imgpath)
print(x)
a+=1
file=open(imgpath,'wb')
file.write(imgdata)
file.flush()
file.close()
except:
continue

复制代码

def downpics():
title=gettitle(url)
print(title)
dirpath='f:/知乎/'+title+"/"
if not os.path.exists(dirpath):
os.makedirs(dirpath)#生成了问题标题相应的文件夹
pics=getpicurl(url)
a=1
urls=[]

复制代码

=>

def downpics():
title=gettitle(url)
print(title)
dirpath='f:/知乎/'+title+"/"
if not os.path.exists(dirpath):
os.makedirs(dirpath)#生成了问题标题相应的文件夹
pics=getpicurl(url)
a=1
urls=[]

复制代码

xilingtu · 发表于 2016-9-17 13:07:19

首先谢谢@无符号整形好吧，我修改了试试，还是没成功！我依然不知道哪里错了，

简直了，看来还要学啊，赶紧走出新手村才行~

账号		自动登录	找回密码
密码			立即注册

[已解决]一段抓取知乎妹子的爬虫代码不能正常运行

马上注册，结交更多好友，享用更多功能^_^

评分

浏览过的版块