设为首页收藏本站

切换到窄版

鱼C论坛»论坛 › 编程语言专区 › Python交流 › 关于爬虫的一个问题

发新帖

查看: 1158|回复: 4

[已解决]关于爬虫的一个问题

发表于 2019-5-14 20:36:30 | 显示全部楼层 |阅读模式

5鱼币

错误：

请输入网址:https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6
Traceback (most recent call last):
File "F:\Py\课堂练习.py", line 37, in <module>
the_list = spider.load_page()
File "F:\Py\课堂练习.py", line 29, in load_page
item_list = pattern.findall(self.file)
TypeError: cannot use a string pattern on a bytes-like object

复制代码

程序：

# _*_ coding:utf-8_*_
import urllib.request
import re
class Spider:
'''
微博热搜的一个爬虫类
'''
def load_page(self):
user_agent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)'
headers = {'User-Agent':user_agent}
self.html = input('请输入网址:')
self.req = urllib.request.Request(self.html,headers = headers)
self.response = urllib.request.urlopen(self.req)
self.file = self.response.read()
# （将解读出来的代码按gbk格式进行解压之后再按utf-8格式压缩，
# 防止解读出来的代码和本地编码方式不一样而出现乱码）
#self.new_file = self.file.decode('gbk').encode('utf-8')
#用正则表达式过滤文字
pattern = re.compile(r'<a.*?target="_blank">(.*?)</a>',re.S)
#找到所有匹配表达式的pattern后放入一个列表中
item_list = pattern.findall(self.file)
return item_list
# main
if __name__ == "__main__":
spider = Spider()
the_list = spider.load_page()
for i in the_list:
print (i)

复制代码

最佳答案

月排行榜 / 总排行榜

kaohsing

2019-5-14 20:36:31

self.file = self.response.read() 这个是二进制流，这里需要解码，然后后面的正则才可起作用。
如果不解码，后面的匹配语句需要修改。最后匹配出还是二进制数据，还是需要解码。

跳转到最佳答案楼层

最佳答案

查看完整内容

self.file = self.response.read() 这个是二进制流，这里需要解码，然后后面的正则才可起作用。如果不解码，后面的匹配语句需要修改。最后匹配出还是二进制数据，还是需要解码。

小甲鱼最新课程 -> https://ilovefishc.com

回复

使用道具举报

发表于 2019-5-14 20:36:31 | 显示全部楼层本楼为最佳答案

这个最佳答案由 kaohsing 给出，感谢 kaohsing 的回答。

单击隐藏图章

self.file = self.response.read() 这个是二进制流，这里需要解码，然后后面的正则才可起作用。
如果不解码，后面的匹配语句需要修改。最后匹配出还是二进制数据，还是需要解码。

小甲鱼最新课程 -> https://ilovefishc.com

回复

使用道具举报

发表于 2019-5-15 07:52:24 | 显示全部楼层

[attachimg]111007[/attachimg

小甲鱼最新课程 -> https://ilovefishc.com

回复

使用道具举报

发表于 2019-5-15 07:59:03 From FishC Mobile | 显示全部楼层

findall后面要跟字符串，你的不是，所以报错

小甲鱼最新课程 -> https://ilovefishc.com

回复

使用道具举报

发表于 2019-5-15 08:14:57 | 显示全部楼层

# _*_ coding:utf-8_*_
'''
py3.7 pycharm
'''
import urllib.request
import re
class Spider:
def load_page(self):
user_agent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)'
headers = {'User-Agent': user_agent}
html = 'https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6'
req = urllib.request.Request(html, headers=headers)
response = urllib.request.urlopen(req)
file = response.read().decode('utf-8')
pattern = re.compile(r'<a.*?target="_blank">(.*?)</a>', re.S | re.M)
item_list = pattern.findall(file)
return item_list
if __name__ == "__main__":
spider = Spider()
the_list = spider.load_page()
for i in the_list:
print(i)

复制代码

小甲鱼最新课程 -> https://ilovefishc.com

回复

使用道具举报

发新帖

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-6-17 06:02

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表