鱼C论坛

 找回密码
 立即注册
查看: 2124|回复: 3

[已解决]小白求助:为什么这个15行的小爬虫什么也爬不出来?

[复制链接]
发表于 2020-7-14 10:57:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
以下代码是某视频的老师的代码。我复制过来,可是什么出输出不了?

能不能请大神帮忙看看? 到底是我搞错了,还是 这个视频太久了,现在百度启用反爬机制等之类的原因?




  1. import urllib.request,re
  2. keywd="韦玮"
  3. keywd=urllib.request.quote(keywd)
  4. #page=(num-1)*10
  5. for i in range(1,11):
  6.     url="http://www.baidu.com/s?wd="+keywd+"&pn="+str((i-1)*10)
  7.     data=urllib.request.urlopen(url).read().decode("utf-8")
  8.     pat="title:'(.*?)',"
  9.     pat2='"title":"(.*?)",'
  10.     rst1=re.compile(pat).findall(data)
  11.     rst2=re.compile(pat2).findall(data)
  12.     for j in range(0,len(rst1)):
  13.         print(rst1[j])
  14.     for z in range(0,len(rst2)):
  15.         print(rst2[z])

复制代码
最佳答案
2020-7-14 19:45:15
quote() 函数是在 urllib.parse 模块里面的,不是在 urllib.request 里。

这样就有内容输出了:

  1. import urllib.request, urllib.parse, re

  2. keywd = "韦玮"
  3. keywd = urllib.parse.quote(keywd)
  4. # page=(num-1)*10
  5. for i in range(1, 11):
  6.     url = "http://www.baidu.com/s?wd=" + keywd + "&pn=" + str((i - 1) * 10)
  7.     data = urllib.request.urlopen(url).read().decode("utf-8")
  8.     pat = "title:'(.*?)',"
  9.     pat2 = '"title":"(.*?)",'
  10.     rst1 = re.compile(pat).findall(data)
  11.     rst2 = re.compile(pat2).findall(data)
  12.     for j in range(0, len(rst1)):
  13.         print(rst1[j])
  14.     for z in range(0, len(rst2)):
  15.         print(rst2[z])
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-7-14 19:45:15 | 显示全部楼层    本楼为最佳答案   
quote() 函数是在 urllib.parse 模块里面的,不是在 urllib.request 里。

这样就有内容输出了:

  1. import urllib.request, urllib.parse, re

  2. keywd = "韦玮"
  3. keywd = urllib.parse.quote(keywd)
  4. # page=(num-1)*10
  5. for i in range(1, 11):
  6.     url = "http://www.baidu.com/s?wd=" + keywd + "&pn=" + str((i - 1) * 10)
  7.     data = urllib.request.urlopen(url).read().decode("utf-8")
  8.     pat = "title:'(.*?)',"
  9.     pat2 = '"title":"(.*?)",'
  10.     rst1 = re.compile(pat).findall(data)
  11.     rst2 = re.compile(pat2).findall(data)
  12.     for j in range(0, len(rst1)):
  13.         print(rst1[j])
  14.     for z in range(0, len(rst2)):
  15.         print(rst2[z])
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2020-7-14 20:46:45 | 显示全部楼层
能输出呀
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-7-15 08:16:58 | 显示全部楼层
zltzlt 发表于 2020-7-14 19:45
quote() 函数是在 urllib.parse 模块里面的,不是在 urllib.request 里。

这样就有内容输出了:

@zltzlt
@xiaofeiyu

谢谢两位大佬指教,小白很是感谢。

我的运行环境是WIN7, PYTHON 3.8.3 

昨天输出来,没有报错,可是啥内容也没有。就是>>>>几个这个。

今天我重装Python, 就有内容输出了。加了Z大神的parse之后,输出更多。

小白觉得两位大佬都有道理,可是答案只能选一个,请谅。

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-23 21:56

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表