鱼C论坛

 找回密码
 立即注册
查看: 636|回复: 7

[已解决]爬虫求助,怎么才能输出该标签内的字符串

[复制链接]
发表于 2020-5-5 16:29:31 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
    <div class="el">
        <p class="t1 ">
            <em class="check" name="delivery_em" onclick="checkboxClick(this)"></em>
            <input class="checkbox" type="checkbox" name="delivery_jobid" value="117950378" jt="0" style="display:none" />
            <span>
                <a target="_blank" title="人事专员(薪酬)" href="https://jobs.51job.com/shenzhen-nsq/117950378.html?s=01&t=0"  onmousedown="">
                    人事专员(薪酬)                </a>
            </span>
                                                                    </p>
        <span class="t2"><a target="_blank" title="前海云链科技(深圳)有限公司" href="https://jobs.51job.com/all/co5579986.html">前海云链科技(深圳)有限公司</a></span>
        <span class="t3">深圳-南山区</span>
        <span class="t4">6-8千/月</span>
        <span class="t5">05-05</span>
    </div>


这个是前程无忧的职位信息,其他的公司、薪酬都爬下来了,但是不知道该怎么爬取<a>标签里的职位名称,恳求大佬们指教。
最佳答案
2020-5-5 17:01:36
Ttttted 发表于 2020-5-5 16:51
?? 这样?
我用什么函数去调用这个路径,find和find_all都报错了

你这样试试:
import requests
from bs4 import BeautifulSoup

url = 'https://search.51job.com/list/020000%252C040000%252C030200%252C080200%252C010000,000000,0608,00,9,99,%25E8%2596%25AA%25E9%2585%25AC,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='

kv = {'user-agent' : 'Chrome/10'}

r = requests.get(url, headers = kv)

r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, 'html.parser')

target = soup("p", class_="t1")
for each in target:
    print(each.span.a['title'])
我这里岗位都打印出来了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-5 16:34:02 | 显示全部楼层
用美丽汤(Beautiful Suop)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-5 16:37:40 | 显示全部楼层
liuzhengyuan 发表于 2020-5-5 16:34
用美丽汤(Beautiful Suop)

我用了汤,但是就是。。。怎么说,不能具体定位到这个<p>下面的<a>标签?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-5 16:45:53 | 显示全部楼层
Ttttted 发表于 2020-5-5 16:37
我用了汤,但是就是。。。怎么说,不能具体定位到这个下面的标签?

直接p.span.a['title']
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-5 16:51:38 | 显示全部楼层
qiuyouzhi 发表于 2020-5-5 16:45
直接p.span.a['title']

?? 这样?
我用什么函数去调用这个路径,find和find_all都报错了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-5 16:55:43 | 显示全部楼层
import requests
from bs4 import BeautifulSoup

url = 'https://search.51job.com/list/020000%252C040000%252C030200%252C080200%252C010000,000000,0608,00,9,99,%25E8%2596%25AA%25E9%2585%25AC,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='

kv = {'user-agent' : 'Chrome/10'}

r = requests.get(url, headers = kv)

r.encoding = r.apparent_encoding

soup = BeautifulSoup(r.text, 'html.parser')


这是我前面的代码,到这里就卡在那个怎么输出职位信息了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-5 17:01:36 | 显示全部楼层    本楼为最佳答案   
Ttttted 发表于 2020-5-5 16:51
?? 这样?
我用什么函数去调用这个路径,find和find_all都报错了

你这样试试:
import requests
from bs4 import BeautifulSoup

url = 'https://search.51job.com/list/020000%252C040000%252C030200%252C080200%252C010000,000000,0608,00,9,99,%25E8%2596%25AA%25E9%2585%25AC,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='

kv = {'user-agent' : 'Chrome/10'}

r = requests.get(url, headers = kv)

r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, 'html.parser')

target = soup("p", class_="t1")
for each in target:
    print(each.span.a['title'])
我这里岗位都打印出来了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-5 19:40:43 | 显示全部楼层
qiuyouzhi 发表于 2020-5-5 17:01
你这样试试:

我这里岗位都打印出来了

可以了,谢谢大佬,我自己好好理解一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-27 02:49

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表