[已解决]爬取豆瓣250字符转义问题

翰桑曼 · 发表于 2021-10-6 14:07:47

求助大神——
如图，我想把中英文标题都爬取下来，但是两个标题中间有一个斜杠，我试着用replace拿掉，结果还是乱码，这是啥问题？

最佳答案

冬雪雪冬

2021-10-6 14:07:48

import requests
from bs4 import BeautifulSoup as bs
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
res = requests.get('https://movie.douban.com/top250', headers = headers)
soup = bs(res.text, 'html.parser')
movies = []
targets = soup.find_all('div', class_ ='hd')
for each in targets:
for sp in each.find_all('span', class_='title'):
movies.append(sp.text.replace(' / ', ''))

复制代码

冬雪雪冬 · 发表于 2021-10-6 14:07:48

import requests
from bs4 import BeautifulSoup as bs
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
res = requests.get('https://movie.douban.com/top250', headers = headers)
soup = bs(res.text, 'html.parser')
movies = []
targets = soup.find_all('div', class_ ='hd')
for each in targets:
for sp in each.find_all('span', class_='title'):
movies.append(sp.text.replace(' / ', ''))

复制代码

翰桑曼 · 发表于 2021-10-6 16:27:37

冬雪雪冬发表于 2021-10-6 14:31

谢谢大神~请问这个 /&#160；是什么意思，和网页源码&nbsp是什么转换关系呢？

冬雪雪冬 · 发表于 2021-10-6 16:32:18

翰桑曼发表于 2021-10-6 16:27
谢谢大神~请问这个 /&#160；是什么意思，和网页源码&nbsp是什么转换关系呢？

xml格式中的空格

翰桑曼 · 发表于 2021-10-6 16:41:50

冬雪雪冬发表于 2021-10-6 16:32
xml格式中的空格

好的~十分感谢

账号		自动登录	找回密码
密码			立即注册