ljj19971222 发表于 2019-9-20 13:48:45

python爬虫问题

import urllib.request
import re
import os
def open_url(url):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Mobile Safari/537.36')
    response=urllib.request.urlopen(req)
    html=response.read().decode('utf-8')
    return html

def get_img(html):
    reg=r'<img class="BDE_Image" pic_type="0" width="560" height="560" src="([^"]+\.jpg)"'
    imglist=re.findall(reg,html)
    print(imglist)    ////返回空列表
    '''
    print("一共有")
    print(len(imglist))
   
    for each in imglist:
      print(each)
      print("yes!")
    for each in imglist:
      filename = each.split("/")[-1]
      urllib.request.urlretrieve(each,filename,None)
    '''
if __name__=='__main__':
    url='https://tieba.baidu.com/p/6216578674'
    get_img(open_url(url))


真的不知道问题出在哪,弄了一上午快哭了!最后只返回[]这个

ljj19971222 发表于 2019-9-20 14:08:16

{:10_266:}来个人帮忙解答一下吧

yuweb 发表于 2019-9-20 14:32:03

本帖最后由 yuweb 于 2019-9-21 08:40 编辑

findall
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。

语法格式为:

findall(string[, pos[, endpos]])
参数:

string : 待匹配的字符串。
pos : 可选参数,指定字符串的起始位置,默认为 0。
endpos : 可选参数,指定字符串的结束位置,默认为字符串的长度。

open_url(url)里返回的html有问题

import re
import os
import requests
import bs4

def open_url(url):
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
    html = requests.get(url,headers = headers)
    return html

def get_img(html):
    file_name = 'image2.html'
    with open(file_name,'w',encoding='utf-8') as file_obj:
      file_obj.write(html.text)

    soup = bs4.BeautifulSoup(html.text,"lxml")
    content = soup.select("img.BDE_Image")
   
    print(content)
    '''
    print("一共有")
    print(len(imglist))
   
    for each in imglist:
      print(each)
      print("yes!")
    for each in imglist:
      filename = each.split("/")[-1]
      urllib.request.urlretrieve(each,filename,None)
    '''
if __name__=='__main__':
    url='https://tieba.baidu.com/p/6216578674'
    get_img(open_url(url))

ljj19971222 发表于 2019-9-20 15:42:11

yuweb 发表于 2019-9-20 14:32
findall
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表 ...

def findall(pattern, string, flags=0)我知道这个,但是为什么会匹配失败啊?
原图片就是这样的<img class="BDE_Image" pic_type="0" width="560" height="560" src="https://imgsa.baidu.com/forum/w%3D580/sign=22d642fd00f41bd5da53e8fc61d881a0/4cfff203918fa0ec5732c1db289759ee3c6ddb1a.jpg">
那我这个正则表达式匹配到src应该没什么问题吧?为什么会返回[]呢?

yuweb 发表于 2019-9-20 16:05:47

import re
import os
import requests
import bs4

def open_url(url):
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
    html = requests.get(url,headers = headers)
    return html

def get_img(html):
    file_name = 'image2.html'
    with open(file_name,'w',encoding='utf-8') as file_obj:
      file_obj.write(html.text)

    soup = bs4.BeautifulSoup(html.text,"lxml")
    content = soup.select("img.BDE_Image")
   
    print(content)
    '''
    print("一共有")
    print(len(imglist))
   
    for each in imglist:
      print(each)
      print("yes!")
    for each in imglist:
      filename = each.split("/")[-1]
      urllib.request.urlretrieve(each,filename,None)
    '''
if __name__=='__main__':
    url='https://tieba.baidu.com/p/6216578674'
    get_img(open_url(url))

ljj19971222 发表于 2019-9-20 16:11:54

yuweb 发表于 2019-9-20 14:32
findall
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表 ...

刚才在我同学电脑上试了一下他的可以正常运行我的代码,但是我的就显示空列表,是什么的原因,证书的原因吗

yuweb 发表于 2019-9-20 16:14:10

给你一个bs4做的
import re
import os
import requests
import bs4

def open_url(url):
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
    html = requests.get(url,headers = headers)
    return html

def get_img(html):
    file_name = 'image2.html'
    with open(file_name,'w',encoding='utf-8') as file_obj:
      file_obj.write(html.text)

    soup = bs4.BeautifulSoup(html.text,"lxml")
    content = soup.select("img.BDE_Image")
   
    print(content)
    '''
    print("一共有")
    print(len(imglist))
   
    for each in imglist:
      print(each)
      print("yes!")
    for each in imglist:
      filename = each.split("/")[-1]
      urllib.request.urlretrieve(each,filename,None)
    '''
if __name__=='__main__':
    url='https://tieba.baidu.com/p/6216578674'
    get_img(open_url(url))

yuweb 发表于 2019-9-20 16:19:58

楼主你open_url(url)方法中返回的html有问题
可以保存到本地文件中,然后查看一下,跟原网页的html源代码不同的

ljj19971222 发表于 2019-9-20 16:41:11

yuweb 发表于 2019-9-20 16:19
楼主你open_url(url)方法中返回的html有问题
可以保存到本地文件中,然后查看一下,跟原网页的html源代码 ...

我找到问题所在了。
我的User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Mobile Safari/537.36为这个但是我是用windows进行访问的不知道为啥会被当做linux
这个是我同学的Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36,我用他的替换一下就成功了,不知道为啥我所有的都被算作linux,不知道有什么解决办法

yuweb 发表于 2019-9-20 16:49:24

ljj19971222 发表于 2019-9-20 16:41
我找到问题所在了。
我的User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWe ...

我贴了个代码,还没通过审核,你等等

ljj19971222 发表于 2019-9-20 16:59:44

yuweb 发表于 2019-9-20 16:49
我贴了个代码,还没通过审核,你等等

好的{:5_110:}

ljj19971222 发表于 2019-9-20 18:39:46

yuweb 发表于 2019-9-20 16:49
我贴了个代码,还没通过审核,你等等

emmm怎么还没通过呀,是不是没提交成功

yuweb 发表于 2019-9-21 08:44:34

本帖最后由 yuweb 于 2019-9-21 08:46 编辑

不好意思,一直没过,我提交了好几遍,审核好慢啊,楼主看看要不要把重复的楼层删了(看6楼的就好)
页: [1]
查看完整版本: python爬虫问题