|
|

楼主 |
发表于 2018-5-15 15:08:39
|
显示全部楼层
# coding:utf-8
import requests
from bs4 import BeautifulSoup
url = "http://news.sina.com.cn/"
# 请求新浪新闻的URL,获取其text文本
wbdatatemp = requests.get(url)
wbdatatemp.encoding = 'UTF-8'
wbdata = wbdatatemp.text
# 对获取到的文本进行解析
soup = BeautifulSoup(wbdata,'html.parser')
# 从解析文件中通过select选择器定位指定的元素,返回一个列表
news_titles = soup.select("ul.list_14 > li.topli14 > a ")
# 对返回的列表进行遍历
for n in news_titles:
# 提取出标题和链接信息
title = n.get_text()
link = n.get("href")
data = {
'标题':title,
'链接':link
}
print(data)
千辛万苦自己找到了问题,正确的代码,还有一点问题,这个是每类标题的大标题新闻,小标题的新闻要去掉属性
第一个程序出错问题在news_titles = soup.select("div.list_01 >ul.list_14 > li.topli14")
大于号 ' > ' 前后都要有空格。 |
|