Ttttted 发表于 2020-5-5 16:29:31

爬虫求助,怎么才能输出该标签内的字符串

    <div class="el">
      <p class="t1 ">
            <em class="check" name="delivery_em" onclick="checkboxClick(this)"></em>
            <input class="checkbox" type="checkbox" name="delivery_jobid" value="117950378" jt="0" style="display:none" />
            <span>
                <a target="_blank" title="人事专员(薪酬)" href="https://jobs.51job.com/shenzhen-nsq/117950378.html?s=01&t=0"onmousedown="">
                  人事专员(薪酬)                </a>
            </span>
                                                                  </p>
      <span class="t2"><a target="_blank" title="前海云链科技(深圳)有限公司" href="https://jobs.51job.com/all/co5579986.html">前海云链科技(深圳)有限公司</a></span>
      <span class="t3">深圳-南山区</span>
      <span class="t4">6-8千/月</span>
      <span class="t5">05-05</span>
    </div>


这个是前程无忧的职位信息,其他的公司、薪酬都爬下来了,但是不知道该怎么爬取<a>标签里的职位名称,恳求大佬们指教。

liuzhengyuan 发表于 2020-5-5 16:34:02

用美丽汤(Beautiful Suop)

Ttttted 发表于 2020-5-5 16:37:40

liuzhengyuan 发表于 2020-5-5 16:34
用美丽汤(Beautiful Suop)

我用了汤,但是就是。。。怎么说,不能具体定位到这个<p>下面的<a>标签?

qiuyouzhi 发表于 2020-5-5 16:45:53

Ttttted 发表于 2020-5-5 16:37
我用了汤,但是就是。。。怎么说,不能具体定位到这个下面的标签?

直接p.span.a['title']

Ttttted 发表于 2020-5-5 16:51:38

qiuyouzhi 发表于 2020-5-5 16:45
直接p.span.a['title']

?? 这样?
我用什么函数去调用这个路径,find和find_all都报错了

Ttttted 发表于 2020-5-5 16:55:43

import requests
from bs4 import BeautifulSoup

url = 'https://search.51job.com/list/020000%252C040000%252C030200%252C080200%252C010000,000000,0608,00,9,99,%25E8%2596%25AA%25E9%2585%25AC,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='

kv = {'user-agent' : 'Chrome/10'}

r = requests.get(url, headers = kv)

r.encoding = r.apparent_encoding

soup = BeautifulSoup(r.text, 'html.parser')


这是我前面的代码,到这里就卡在那个怎么输出职位信息了

qiuyouzhi 发表于 2020-5-5 17:01:36

Ttttted 发表于 2020-5-5 16:51
?? 这样?
我用什么函数去调用这个路径,find和find_all都报错了

你这样试试:

import requests
from bs4 import BeautifulSoup

url = 'https://search.51job.com/list/020000%252C040000%252C030200%252C080200%252C010000,000000,0608,00,9,99,%25E8%2596%25AA%25E9%2585%25AC,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='

kv = {'user-agent' : 'Chrome/10'}

r = requests.get(url, headers = kv)

r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, 'html.parser')

target = soup("p", class_="t1")
for each in target:
    print(each.span.a['title'])
我这里岗位都打印出来了

Ttttted 发表于 2020-5-5 19:40:43

qiuyouzhi 发表于 2020-5-5 17:01
你这样试试:

我这里岗位都打印出来了

可以了,谢谢大佬,我自己好好理解一下
页: [1]
查看完整版本: 爬虫求助,怎么才能输出该标签内的字符串