第60讲论一只爬虫的自我修养8 正则表达式4

八个核桃罒 · 发表于 2017-8-22 15:11:02

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

1.小甲鱼讲的是关于爬取百度贴吧某一页的图片网址
2.我是按照小甲鱼的代码写的
3.运行没有报错，但是也没有输出图片网址
4.附上图片及源代码

# 爬取百度贴吧图片网址

import urllib.request
import re

# 打开网址（1）
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36')
response = urllib.request.urlopen(req)
html = response.read(300).decode('utf-8')

return html

# 获取图片网址(2)
def get_img(html):
p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'
imglist = re.findall(p,html)

for each in imglist:
print(each)

# 调用函数（3）
if __name__ == '__main()__':
url = "https://tieba.baidu.com/p/5283758736"
get_img(open_url(url))

八个核桃罒 · 发表于 2017-8-22 17:02:16

该问题我自己找到解决问题所在了：主要是之前把附图里面绿色框内 "if __name__ ==‘__main__’:" 写成了 "if __name__ ==‘__main()__’:"

账号		自动登录	找回密码
密码			立即注册

第60讲 论一只爬虫的自我修养8 正则表达式4

马上注册，结交更多好友，享用更多功能^_^

第60讲论一只爬虫的自我修养8 正则表达式4