鱼C论坛

 找回密码
 立即注册
查看: 1945|回复: 3

[已解决]小白求助:为什么这个15行的小爬虫什么也爬不出来?

[复制链接]
发表于 2020-7-14 10:57:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
以下代码是某视频的老师的代码。我复制过来,可是什么出输出不了?

能不能请大神帮忙看看? 到底是我搞错了,还是 这个视频太久了,现在百度启用反爬机制等之类的原因?

import urllib.request,re
keywd="韦玮"
keywd=urllib.request.quote(keywd)
#page=(num-1)*10
for i in range(1,11):
    url="http://www.baidu.com/s?wd="+keywd+"&pn="+str((i-1)*10)
    data=urllib.request.urlopen(url).read().decode("utf-8")
    pat="title:'(.*?)',"
    pat2='"title":"(.*?)",'
    rst1=re.compile(pat).findall(data)
    rst2=re.compile(pat2).findall(data)
    for j in range(0,len(rst1)):
        print(rst1[j])
    for z in range(0,len(rst2)):
        print(rst2[z])
最佳答案
2020-7-14 19:45:15
quote() 函数是在 urllib.parse 模块里面的,不是在 urllib.request 里。

这样就有内容输出了:
import urllib.request, urllib.parse, re

keywd = "韦玮"
keywd = urllib.parse.quote(keywd)
# page=(num-1)*10
for i in range(1, 11):
    url = "http://www.baidu.com/s?wd=" + keywd + "&pn=" + str((i - 1) * 10)
    data = urllib.request.urlopen(url).read().decode("utf-8")
    pat = "title:'(.*?)',"
    pat2 = '"title":"(.*?)",'
    rst1 = re.compile(pat).findall(data)
    rst2 = re.compile(pat2).findall(data)
    for j in range(0, len(rst1)):
        print(rst1[j])
    for z in range(0, len(rst2)):
        print(rst2[z])
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-7-14 19:45:15 | 显示全部楼层    本楼为最佳答案   
quote() 函数是在 urllib.parse 模块里面的,不是在 urllib.request 里。

这样就有内容输出了:
import urllib.request, urllib.parse, re

keywd = "韦玮"
keywd = urllib.parse.quote(keywd)
# page=(num-1)*10
for i in range(1, 11):
    url = "http://www.baidu.com/s?wd=" + keywd + "&pn=" + str((i - 1) * 10)
    data = urllib.request.urlopen(url).read().decode("utf-8")
    pat = "title:'(.*?)',"
    pat2 = '"title":"(.*?)",'
    rst1 = re.compile(pat).findall(data)
    rst2 = re.compile(pat2).findall(data)
    for j in range(0, len(rst1)):
        print(rst1[j])
    for z in range(0, len(rst2)):
        print(rst2[z])
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2020-7-14 20:46:45 | 显示全部楼层
能输出呀
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-7-15 08:16:58 | 显示全部楼层
zltzlt 发表于 2020-7-14 19:45
quote() 函数是在 urllib.parse 模块里面的,不是在 urllib.request 里。

这样就有内容输出了:

@zltzlt
@xiaofeiyu

谢谢两位大佬指教,小白很是感谢。

我的运行环境是WIN7, PYTHON 3.8.3 

昨天输出来,没有报错,可是啥内容也没有。就是>>>>几个这个。

今天我重装Python, 就有内容输出了。加了Z大神的parse之后,输出更多。

小白觉得两位大佬都有道理,可是答案只能选一个,请谅。

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-19 23:07

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表