两个小问题

肥^o^帅 · 发表于 2019-5-22 09:37:24

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由肥^o^帅于 2019-5-22 10:08 编辑

代码先上

import requests
import re
import os
import bs4
def open(url):
res=requests.get(url)
return res
url='http://www.yanwenzi.com/changyong/'
res=open(url)
res.encoding=res.apparent_encoding
soup=bs4.BeautifulSoup(res.text,'html.parser')
content=[]
name=[]
targets=soup.find_all('li')
for each in targets:
content.append(each.p)
content=content[23:]
for each in targets:
name.append(each.div)
name=name[23:]
for i in range(len(name)):
print('{}\n{}'.format(content[i],name[i]))

复制代码

这样爬取颜文字表情，但是结果却是这样：
<p>w(ﾟДﾟ)w</p>
<div>啊啊</div>
<p>(ノへ￣、)</p>
<div>擦眼泪</div>
<p>(￣_,￣ )</p>
<div>不屑</div>
<p>ヽ(✿ﾟ▽ﾟ)ノ</p>
<div>好耶</div>
<p>(๑•̀ㅂ•́)و✧</p>
<div>棒</div>
<p>(￣ε(#￣)☆╰╮o(￣皿￣///)</p>
<div>抽</div>
<p>（づ￣3￣）づ╭❤～</p>
<div>亲</div>
<p>Σ( ° △ °|||)︴</p>
<div>汗</div>
<p>(～￣(OO)￣)ブ</p>
<div>笨</div>
<p>凸(艹皿艹 )</p>
<div>擦</div>
<p>(* ￣3)(ε￣ *)</p>
<div>啵啵</div>
<p>(*￣rǒ￣)</p>
<div>挖鼻屎</div>
<p>┗|｀O′|┛ 嗷~~</p>
<div>嗷</div>
<p>φ(≧ω≦*)♪</p>
<div>乐</div>
<p>︿(￣︶￣)︿</p>
<div>飞</div>
<p>(u‿ฺu✿ฺ)</p>
<div>好滴</div>
<p>Hi~ o(*￣▽￣*)ブ</p>
<div>hi</div>
<p>♪(^∇^*)</p>
<div>啦啦</div>
<p>o(*≧▽≦)ツ┏━┓</p>
<div>拍桌</div>
<p>╰(*°▽°*)╯</p>
<div>惊喜</div>
>>>

p标签和div标签里的内容怎么正确显示？

wp231957 · 发表于 2019-5-22 09:42:49

第一个问题在于这里

print(each.p) 这个each.p 没有内容，但你一定要它print 没办法它只好输出none

肥^o^帅 · 发表于 2019-5-22 09:48:13

wp231957 发表于 2019-5-22 09:42
第一个问题在于这里

print(each.p) 这个each.p 没有内容，但你一定要它print 没办法它只好输出none

那后面怎么又把颜文字打印出来了

wp231957 · 发表于 2019-5-22 09:59:06

肥^o^帅发表于 2019-5-22 09:48
那后面怎么又把颜文字打印出来了

bs4 不咋熟，你这个问题用xpath 可以很好的实现

肥^o^帅 · 发表于 2019-5-22 10:08:46

wp231957 发表于 2019-5-22 09:59
bs4 不咋熟，你这个问题用xpath 可以很好的实现

我又改了一下，你再看看，另外我不会xpath啊，好用吗

wp231957 · 发表于 2019-5-22 10:16:12

肥^o^帅发表于 2019-5-22 10:08
我又改了一下，你再看看，另外我不会xpath啊，好用吗

两点：
1、凡是#后跟一堆数字的都是当前字符集无法正确显示
2、<div> <p> 之类的不应该显示在最终结果之中

wp231957 · 发表于 2019-5-22 10:33:44

一楼代码在我这里基本能正确显示
去掉<p> <div> 就完美了

kaohsing · 发表于 2019-5-22 11:03:16

这样试试：

import requests
import bs4
url = 'http://www.yanwenzi.com/changyong/'
res = requests.get(url)
res.encoding = res.apparent_encoding
soup = bs4.BeautifulSoup(res.text, 'html.parser')
ul = soup.find_all(attrs={'id':'items'})
for li in ul[0].find_all('li'):
print(li.find_all('p')[0].text,
' ',
li.find_all('div')[0].text )

复制代码

kaohsing · 发表于 2019-5-22 11:04:53

肥^o^帅 · 发表于 2019-5-22 14:19:36

kaohsing 发表于 2019-5-22 11:04

不是很懂

kaohsing · 发表于 2019-5-22 14:47:01

肥^o^帅发表于 2019-5-22 14:19
不是很懂

账号		自动登录	找回密码
密码			立即注册

两个小问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块