[已解决]Exception: Unexpected data type <class 're.Pattern'>

柠檬冲冲冲 · 发表于 2022-1-29 17:22:47

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

Traceback (most recent call last):
 File "C:/Users/123/Desktop/12爬虫.py", line 111, in <module>
main()
 File "C:/Users/123/Desktop/12爬虫.py", line 30, in main
savedata(datalist,savepath)
 File "C:/Users/123/Desktop/12爬虫.py", line 105, in savedata
sheet.write(i+1,j,data[j])#数据
 File "C:\Users\123\PycharmProjects\pythonProject2\venv\lib\site-packages\xlwt\Worksheet.py", line 1088, in write
self.row(r).write(c, label, style)
 File "C:\Users\123\PycharmProjects\pythonProject2\venv\lib\site-packages\xlwt\Row.py", line 254, in write
raise Exception("Unexpected data type %r" % type(label))
Exception: Unexpected data type <class 're.Pattern'>
一下上面这个又是什么原因啊，谢了，能解释一下这个是什么意思吗

from bs4 import BeautifulSoup #网页解析
import re #正则表达式，进行文字匹配
import urllib.request, urllib.error
import xlwt#进行excel操作
import sqlite3#进行SQlite数据库操作
#影片详情链接的规则
findlink = re.compile(r'<a href="(.*?)">')#创建正则表达式对象，表示规则（字符串模式）
#影片图片的链接
findimgscr = re.compile(r'<img.*src="(.*?)"',re.S) #re.S让换行符包含在字符中
#影片片名
findtitle = re.compile(r'(.*)')
#影片的评分
findrating = re.compile(r'(.*)')
#找到评价人数
findnum = re.compile(r'(\d*)人评价')
#找到概况
findgk = re.compile(r'(.*)')
#找到影片的相关内容
findabout = re.compile(r'(.*?)', re.S)
def main():
baseurl = "https://movie.douban.com/top250?start="
#爬取网页
datalist = getdata(baseurl)
# 前面的为用excel表格存储
savepath = "豆瓣电影top250.xls"
savedata(datalist,savepath)
#爬取网页
def getdata(baseurl):
datalist = []
for i in range(0,10):#调用获取页面信息的函数，10次
url = baseurl + str(i*25)
html = askURL(url)#保存获取到的网页源码
#逐一解析数据
soup = BeautifulSoup(html,"html.parser")
for item in soup.find_all('div',class_="item"):#查找符合要求的字符串，形成列表
#测试查看电影item全部信息
data = []#保存一部电影的全部信息
item = str(item)
# 获取影片的超链接
link = re.findall(findlink,item)[0] #re库用来通过正则表达式查找指定的字符串
imgscr = re.findall(findimgscr,item)[0] #添加图片
data.append(findimgscr)
titles = re.findall(findtitle,item)[0]#片名可能只有一个中文名，没有外文
if (len(titles)==2):
ctitle = titles[0]
data.append(ctitle)#添加中文名
otitle = titles[1].replace("/","")#去掉无关的符号
data.append(otitle)#添加外国名
else:
data.append(titles[0])
data.append('')#外国名字留空
rating = re.findall(findrating,item)[0]#添加评分
data.append(rating[0])
num =re.findall(findnum,item)[0]
data.append(num[0])#添加评价人数
gk = re.findall(findgk,item)
if len(gk)!= 0:
gk =gk[0].replace("。","")
data.append(gk) # 添加概况
else:
data.append(" ")
about = re.findall(findabout,item)
about = re.sub('<br(\s+)?/>(\s+)?', "", str(about))#去掉
about = re.sub('/',"",about)#替换/
data.append(about.strip())#去掉前面的空格
datalist.append(data)#把处理好的一部电影信息放入datalist
return datalist
#得到指定一个url的网页内容
def askURL(url):
head = {"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36"}
request = urllib.request.Request(url,headers= head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html
#保存数据
#用excel
def savedata(datalist,savepath):
print("savepath……")
book = xlwt.Workbook(encoding="utf-8",style_compression=0)#创建workbook对象
sheet = book.add_sheet('豆瓣电影top250',cell_overwrite_ok=True)#创建工作表
col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
for i in range(0,8):
sheet.write(0,i,col[i])#列名
for i in range(0,250):
#print("第%d条"%(i+1))
data = datalist[i]
for j in range(0,8):
sheet.write(i+1,j,data[j])#数据
book.save(savepath)#保存
if __name__ == "__main__": #调用函数，当程序执行时
main()
#用数据库时
#if __name__ == "__main__":
# init_db("movietest,db")
print("爬取完成")

复制代码

最佳答案

月排行榜 / 总排行榜

isdkz

2022-1-30 18:00:32

本帖最后由 isdkz 于 2022-1-30 18:16 编辑

47行改成data.append(imgscr)，你写入excel表的时候报这个错Exception: Unexpected data type <class 're.Pattern'>就是它不期望得到一个正则表达式的实例，很明显你的datalist中存在这样的实例，也就是说你误把正则表达式的实例添加进列表了

from bs4 import BeautifulSoup #网页解析
import re #正则表达式，进行文字匹配
import urllib.request, urllib.error
import xlwt#进行excel操作
import sqlite3#进行SQlite数据库操作
#影片详情链接的规则
findlink = re.compile(r'<a href="(.*?)">')#创建正则表达式对象，表示规则（字符串模式）
#影片图片的链接
findimgscr = re.compile(r'<img.*src="(.*?)"',re.S) #re.S让换行符包含在字符中
#影片片名
findtitle = re.compile(r'(.*)')
#影片的评分
findrating = re.compile(r'(.*)')
#找到评价人数
findnum = re.compile(r'(\d*)人评价')
#找到概况
findgk = re.compile(r'(.*)')
#找到影片的相关内容
findabout = re.compile(r'(.*?)', re.S)
def main():
baseurl = "https://movie.douban.com/top250?start="
#爬取网页
datalist = getdata(baseurl)
# 前面的为用excel表格存储
savepath = "豆瓣电影top250.xls"
savedata(datalist,savepath)
#爬取网页
def getdata(baseurl):
datalist = []
for i in range(0,10):#调用获取页面信息的函数，10次
url = baseurl + str(i*25)
html = askURL(url)#保存获取到的网页源码
#逐一解析数据
soup = BeautifulSoup(html,"html.parser")
for item in soup.find_all('div',class_="item"):#查找符合要求的字符串，形成列表
#测试查看电影item全部信息
data = []#保存一部电影的全部信息
item = str(item)
# 获取影片的超链接
link = re.findall(findlink,item)[0] #re库用来通过正则表达式查找指定的字符串
imgscr = re.findall(findimgscr,item)[0] #添加图片
data.append(imgscr) # 修改这一行
titles = re.findall(findtitle,item)[0]#片名可能只有一个中文名，没有外文
if (len(titles)==2):
ctitle = titles[0]
data.append(ctitle)#添加中文名
otitle = titles[1].replace("/","")#去掉无关的符号
data.append(otitle)#添加外国名
else:
data.append(titles[0])
data.append('')#外国名字留空
rating = re.findall(findrating,item)[0]#添加评分
data.append(rating[0])
num =re.findall(findnum,item)[0]
data.append(num[0])#添加评价人数
gk = re.findall(findgk,item)
if len(gk)!= 0:
gk =gk[0].replace("。","")
data.append(gk) # 添加概况
else:
data.append(" ")
about = re.findall(findabout,item)
about = re.sub('<br(\s+)?/>(\s+)?', "", str(about))#去掉
about = re.sub('/',"",about)#替换/
data.append(about.strip())#去掉前面的空格
datalist.append(data)#把处理好的一部电影信息放入datalist
return datalist
#得到指定一个url的网页内容
def askURL(url):
head = {"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36"}
request = urllib.request.Request(url,headers= head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html
#保存数据
#用excel
def savedata(datalist,savepath):
print("savepath……")
book = xlwt.Workbook(encoding="utf-8",style_compression=0)#创建workbook对象
sheet = book.add_sheet('豆瓣电影top250',cell_overwrite_ok=True)#创建工作表
col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
for i in range(0,8):
sheet.write(0,i,col[i])#列名
for i in range(0,250):
#print("第%d条"%(i+1))
data = datalist[i]
for j in range(0,8):
sheet.write(i+1,j,data[j])#数据
book.save(savepath)#保存
if __name__ == "__main__": #调用函数，当程序执行时
main()
#用数据库时
#if __name__ == "__main__":
# init_db("movietest,db")
print("爬取完成")

复制代码

跳转到最佳答案楼层

isdkz · 发表于 2022-1-30 18:00:32

本帖最后由 isdkz 于 2022-1-30 18:16 编辑

47行改成data.append(imgscr)，你写入excel表的时候报这个错Exception: Unexpected data type <class 're.Pattern'>就是它不期望得到一个正则表达式的实例，很明显你的datalist中存在这样的实例，也就是说你误把正则表达式的实例添加进列表了

from bs4 import BeautifulSoup #网页解析
import re #正则表达式，进行文字匹配
import urllib.request, urllib.error
import xlwt#进行excel操作
import sqlite3#进行SQlite数据库操作
#影片详情链接的规则
findlink = re.compile(r'<a href="(.*?)">')#创建正则表达式对象，表示规则（字符串模式）
#影片图片的链接
findimgscr = re.compile(r'<img.*src="(.*?)"',re.S) #re.S让换行符包含在字符中
#影片片名
findtitle = re.compile(r'(.*)')
#影片的评分
findrating = re.compile(r'(.*)')
#找到评价人数
findnum = re.compile(r'(\d*)人评价')
#找到概况
findgk = re.compile(r'(.*)')
#找到影片的相关内容
findabout = re.compile(r'(.*?)', re.S)
def main():
baseurl = "https://movie.douban.com/top250?start="
#爬取网页
datalist = getdata(baseurl)
# 前面的为用excel表格存储
savepath = "豆瓣电影top250.xls"
savedata(datalist,savepath)
#爬取网页
def getdata(baseurl):
datalist = []
for i in range(0,10):#调用获取页面信息的函数，10次
url = baseurl + str(i*25)
html = askURL(url)#保存获取到的网页源码
#逐一解析数据
soup = BeautifulSoup(html,"html.parser")
for item in soup.find_all('div',class_="item"):#查找符合要求的字符串，形成列表
#测试查看电影item全部信息
data = []#保存一部电影的全部信息
item = str(item)
# 获取影片的超链接
link = re.findall(findlink,item)[0] #re库用来通过正则表达式查找指定的字符串
imgscr = re.findall(findimgscr,item)[0] #添加图片
data.append(imgscr) # 修改这一行
titles = re.findall(findtitle,item)[0]#片名可能只有一个中文名，没有外文
if (len(titles)==2):
ctitle = titles[0]
data.append(ctitle)#添加中文名
otitle = titles[1].replace("/","")#去掉无关的符号
data.append(otitle)#添加外国名
else:
data.append(titles[0])
data.append('')#外国名字留空
rating = re.findall(findrating,item)[0]#添加评分
data.append(rating[0])
num =re.findall(findnum,item)[0]
data.append(num[0])#添加评价人数
gk = re.findall(findgk,item)
if len(gk)!= 0:
gk =gk[0].replace("。","")
data.append(gk) # 添加概况
else:
data.append(" ")
about = re.findall(findabout,item)
about = re.sub('<br(\s+)?/>(\s+)?', "", str(about))#去掉
about = re.sub('/',"",about)#替换/
data.append(about.strip())#去掉前面的空格
datalist.append(data)#把处理好的一部电影信息放入datalist
return datalist
#得到指定一个url的网页内容
def askURL(url):
head = {"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36"}
request = urllib.request.Request(url,headers= head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html
#保存数据
#用excel
def savedata(datalist,savepath):
print("savepath……")
book = xlwt.Workbook(encoding="utf-8",style_compression=0)#创建workbook对象
sheet = book.add_sheet('豆瓣电影top250',cell_overwrite_ok=True)#创建工作表
col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
for i in range(0,8):
sheet.write(0,i,col[i])#列名
for i in range(0,250):
#print("第%d条"%(i+1))
data = datalist[i]
for j in range(0,8):
sheet.write(i+1,j,data[j])#数据
book.save(savepath)#保存
if __name__ == "__main__": #调用函数，当程序执行时
main()
#用数据库时
#if __name__ == "__main__":
# init_db("movietest,db")
print("爬取完成")

复制代码

账号		自动登录	找回密码
密码			立即注册