鱼C论坛

 找回密码
 立即注册
查看: 1663|回复: 7

新人求助有关爬虫的问题

[复制链接]
发表于 2019-8-9 21:28:32 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 kaishao 于 2019-8-10 18:21 编辑

代码如下
  1. import urllib.request
  2. url = r'https://www.3dmgame.com/bagua/1643.html'
  3. headers =r'User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'
  4. req = urllib.request.Request(url,headers)
  5. response = urllib.request.urlopen(req)
  6. html = response.read().decode('utf-8')
  7. print(html)
复制代码


甚是奇怪,为什么会输出:
  1. TypeError: can't concat str to bytes
复制代码



小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-8-10 07:25:30 | 显示全部楼层
没有爬取到你想爬取的网站
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-10 10:57:38 | 显示全部楼层
import urllib.request
url = r'https://www.3dmgame.com/bagua/1643.html'
headers =r'User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'
req = urllib.request.Request(url,headers)
response = urllib.request.urlopen(req)

html = reqs.read().decode('utf-8')

print(html)

这个reqs不存在哦,应该是response吧
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-10 18:20:08 | 显示全部楼层
chxchxkkk 发表于 2019-8-10 10:57
import urllib.request
url = r'https://www.3dmgame.com/bagua/1643.html'
headers =r'User-Agent', 'Mo ...

谢谢提醒,貌似改了之后还是会显示
  1. TypeError: can't concat str to bytes
复制代码

这网站是不是有问题。。。还是我学错了什么。。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-10 23:18:03 | 显示全部楼层
本帖最后由 Stubborn 于 2019-8-10 23:21 编辑

需要编译成字节,试试在前面加b而不是r,信新人爬虫其实推荐用requests,很方便
  1. import requests
  2. url = 'https://www.3dmgame.com/bagua/1643.html'
  3. headers ={'User-Agent',:'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'}
  4. req = request.get(url,headers=headers).text
  5. print(req)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-11 06:49:15 | 显示全部楼层
这样试试: 2.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2019-8-11 11:27:27 | 显示全部楼层

谢谢大佬
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-11 17:54:05 | 显示全部楼层
  1. import urllib.request
  2. url = r'https://www.3dmgame.com/bagua/1643.html'
  3. headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'}
  4. req = urllib.request.Request(url,headers=headers)
  5. response = urllib.request.urlopen(req)
  6. html = response.read().decode('utf-8')
  7. print(html)
复制代码
1.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-17 13:55

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表