鱼C论坛

 找回密码
 立即注册
查看: 1130|回复: 8

beautiful标签包裹着的标签中的文本怎么读出来?

[复制链接]
发表于 2019-8-19 19:46:30 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
像第零基础入门学习python55讲动动手1的题目:爬取百度百科用户输入的关键字并读出多义项副标题什么的
比如说我想爬这一坨里面的多义词和义项这几个字以及它们的网址,我就必须先锁定
  1. <div class="polysemantList-header-title">
复制代码
然后再看这里面的<a>标签,然后还要看<a>里面的href属性,这个要怎么做到呢?
  1. <div class="polysemantList-header-title">
  2. <b class="polysemant-list-lemma-title">猪八戒</b>是一个<a href="/item/%E7%99%BE%E5%BA%A6%E7%99%BE%E7%A7%91%EF%BC%9A%E5%A4%9A%E4%B9%89%E8%AF%8D" target="_blank">多义词</a>,请在下列<a href="/item/%E4%B9%89%E9%A1%B9" target="_blank">义项</a>上选择浏览(<a href="/item/%E7%8C%AA%E5%85%AB%E6%88%92?force=1" target="_blank">共10个义项</a>)<span class="polysemant-separator"></span>
  3. <a class="polysemant-button polysemant-button--add J-polysemant-button--add" href="javascript:;" data-href="/createsub/%E7%8C%AA%E5%85%AB%E6%88%92">
  4. <span class="polysemant-button__text J-polysemant-button__text">添加义项</span>
  5. <em class="cmn-icon wiki-lemma-icons wiki-lemma-icons_add polysemant-button__icon J-polysemant-button__icon"></em>
  6. </a>
  7. </div>
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-8-19 19:52:44 | 显示全部楼层
soup.a['href']
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-20 16:45:01 | 显示全部楼层

但是这边首先是soup.find_all('div',class_='polysemantList-header-title')
然后得出来貌似就是一个Request对象,然后我也不可能把这里面的东西赋值给soup,所以不能用soup.a[href]吧?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-20 16:52:08 | 显示全部楼层
放网址出来
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-20 17:17:28 | 显示全部楼层
你这描述不是很清楚,是要把所有的a标签提取出来么

  1. divs = soup.find_all('div',class_='polysemantList-header-title')
  2. for div in divs:
  3.     a_list = div.find_all('a')
  4.     for a in a_list:
  5.         print(a)
复制代码


打印结果是所有a标签
  1. <a href="/item/%E7%99%BE%E5%BA%A6%E7%99%BE%E7%A7%91%EF%BC%9A%E5%A4%9A%E4%B9%89%E8%AF%8D" target="_blank">多义词</a>
  2. <a href="/item/%E4%B9%89%E9%A1%B9" target="_blank">义项</a>
  3. <a href="/item/%E7%8C%AA%E5%85%AB%E6%88%92?force=1" target="_blank">共10个义项</a>
  4. <a class="polysemant-button polysemant-button--add J-polysemant-button--add" data-href="/createsub/%E7%8C%AA%E5%85%AB%E6%88%92" href="javascript:;">
  5. <span class="polysemant-button__text J-polysemant-button__text">添加义项</span>
  6. <em class="cmn-icon wiki-lemma-icons wiki-lemma-icons_add polysemant-button__icon J-polysemant-button__icon"></em>
  7. </a>
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-20 17:48:10 | 显示全部楼层
拜托先看看bs4最基本用法
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-20 19:04:40 | 显示全部楼层

https://baike.baidu.com/item/猪八戒/769?fr=aladdin
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-21 15:11:42 | 显示全部楼层
用编程搞垮道盟 发表于 2019-8-20 19:04
https://baike.baidu.com/item/猪八戒/769?fr=aladdin

&#9642;《西游记》中的角色
&#9642;《乱斗西游》人物设定
&#9642;动画电影《西游记之大圣归来》中的角色
&#9642;《西行纪》中的人物
&#9642;歌手张羽伟专辑
&#9642;日本《最游记》人物
&#9642;《夺宝幸运星》的角色
&#9642;电视剧《魔幻手机》人物
&#9642;手游《王者荣耀》中的英雄角色
&#9642;张益魁创作的歌曲

是想获取这些东东吗
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-21 19:13:18 | 显示全部楼层
wp231957 发表于 2019-8-21 15:11
&#9642;《西游记》中的角色
&#9642;《乱斗西游》人物设定
&#9642;动画电影《西游记之大圣归来》中的角 ...

emmmm我想爬这些文字对应的链接
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-17 19:14

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表