鱼C论坛

 找回密码
 立即注册
查看: 2591|回复: 7

[已解决]当BeautifulSoup解析完网页后,发现所需的url不在里边

[复制链接]
发表于 2022-10-25 11:51:40 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
当BeautifulSoup解析完网页后,发现所需的url不在里边,应该是被隐藏了,应该怎么办,求教各位大佬。如下代码所示,想findall('a')来查出所有url,可是返回值为空


  1. liebiao=[]
  2.     headers = {
  3.     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
  4.     'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  5.     'Accept-Language':'en-US,en;q=0.5',
  6.     'Accept-Encoding':'gzip',
  7.     'DNT':'1',
  8.     'Connection':'close'
  9.     }
  10.     page = requests.get("https://search.bilibili.com/all?keyword=%E7%8C%AB%E5%92%AA%E6%97%A5%E5%B8%B8%E7%94%A8%E5%93%81&from_source=webtop_search&spm_id_from=333.1007&search_source=5", headers=headers)
  11.     print(page)
  12.    
  13.     soup_obj=BeautifulSoup(page.content,'html.parser')
  14.     print(soup_obj)


  15.     for link in soup_obj.findAll('a'):#含a
  16.         if "href" in link.attrs:#且以href作为特征/如果link的特征项里有href.
  17.             a=link.attrs['href']
  18.             if 'www.bilibili.com/video' in a:
  19.                 #print(a)
  20.                 #以下存储url到列表里
  21.                 liebiao.append("https:"+a)
复制代码
最佳答案
2022-10-26 00:13:31
本帖最后由 suchocolate 于 2022-10-26 00:27 编辑
  1. import requests
  2. from bs4 import BeautifulSoup
  3. import re


  4. def main():
  5.     result = []
  6.     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'}
  7.     url = "https://search.bilibili.com/all?keyword=%E7%8C%AB%E5%92%AA%E6%97%A5%E5%B8%B8%E7%94%A8%E5%93%81&from_source=" \
  8.           "webtop_search&spm_id_from=333.1007&search_source=5"
  9.     r = requests.get(url, headers=headers)
  10.     r.encoding = 'utf-8'
  11.     soup = BeautifulSoup(r.text, 'html.parser')
  12.     for item in soup.find_all('a', attrs={'href': re.compile('bili.com/video')}):
  13.         result.append(f"https:{item['href']}")
  14.     print(result)


  15. if __name__ == "__main__":
  16.     main()

复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-10-25 12:05:42 | 显示全部楼层
1.打开网页
2.摁下f12
3.找到netword->xhr
4.在一堆json文件里找到av号或url
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-10-25 14:56:38 | 显示全部楼层
想爬哔哩哔哩,不用这么麻烦吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-10-25 14:57:10 | 显示全部楼层
缩进也有问题
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-10-25 14:58:23 | 显示全部楼层
page.content要解码吧,page.content.decode('utf8')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-10-25 15:25:21 | 显示全部楼层
jmy_286501 发表于 2022-10-25 14:58
page.content要解码吧,page.content.decode('utf8')

没有用
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-10-26 00:13:31 | 显示全部楼层    本楼为最佳答案   
本帖最后由 suchocolate 于 2022-10-26 00:27 编辑
  1. import requests
  2. from bs4 import BeautifulSoup
  3. import re


  4. def main():
  5.     result = []
  6.     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'}
  7.     url = "https://search.bilibili.com/all?keyword=%E7%8C%AB%E5%92%AA%E6%97%A5%E5%B8%B8%E7%94%A8%E5%93%81&from_source=" \
  8.           "webtop_search&spm_id_from=333.1007&search_source=5"
  9.     r = requests.get(url, headers=headers)
  10.     r.encoding = 'utf-8'
  11.     soup = BeautifulSoup(r.text, 'html.parser')
  12.     for item in soup.find_all('a', attrs={'href': re.compile('bili.com/video')}):
  13.         result.append(f"https:{item['href']}")
  14.     print(result)


  15. if __name__ == "__main__":
  16.     main()

复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-20 08:37

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表