青松100 发表于 2020-7-14 10:57:36

小白求助:为什么这个15行的小爬虫什么也爬不出来?

以下代码是某视频的老师的代码。我复制过来,可是什么出输出不了?

能不能请大神帮忙看看? 到底是我搞错了,还是 这个视频太久了,现在百度启用反爬机制等之类的原因?




import urllib.request,re
keywd="韦玮"
keywd=urllib.request.quote(keywd)
#page=(num-1)*10
for i in range(1,11):
    url="http://www.baidu.com/s?wd="+keywd+"&pn="+str((i-1)*10)
    data=urllib.request.urlopen(url).read().decode("utf-8")
    pat="title:'(.*?)',"
    pat2='"title":"(.*?)",'
    rst1=re.compile(pat).findall(data)
    rst2=re.compile(pat2).findall(data)
    for j in range(0,len(rst1)):
      print(rst1)
    for z in range(0,len(rst2)):
      print(rst2)

zltzlt 发表于 2020-7-14 19:45:15

quote() 函数是在 urllib.parse 模块里面的,不是在 urllib.request 里。

这样就有内容输出了:

import urllib.request, urllib.parse, re

keywd = "韦玮"
keywd = urllib.parse.quote(keywd)
# page=(num-1)*10
for i in range(1, 11):
    url = "http://www.baidu.com/s?wd=" + keywd + "&pn=" + str((i - 1) * 10)
    data = urllib.request.urlopen(url).read().decode("utf-8")
    pat = "title:'(.*?)',"
    pat2 = '"title":"(.*?)",'
    rst1 = re.compile(pat).findall(data)
    rst2 = re.compile(pat2).findall(data)
    for j in range(0, len(rst1)):
      print(rst1)
    for z in range(0, len(rst2)):
      print(rst2)

xiaofeiyu 发表于 2020-7-14 20:46:45

能输出呀

青松100 发表于 2020-7-15 08:16:58

zltzlt 发表于 2020-7-14 19:45
quote() 函数是在 urllib.parse 模块里面的,不是在 urllib.request 里。

这样就有内容输出了:

@zltzlt
@xiaofeiyu

谢谢两位大佬指教,小白很是感谢。

我的运行环境是WIN7, PYTHON 3.8.3 

昨天输出来,没有报错,可是啥内容也没有。就是>>>>几个这个。

今天我重装Python, 就有内容输出了。加了Z大神的parse之后,输出更多。

小白觉得两位大佬都有道理,可是答案只能选一个,请谅。

页: [1]
查看完整版本: 小白求助:为什么这个15行的小爬虫什么也爬不出来?