抓取新浪军事中国军情标题、时间和链接——回复有彩蛋,Python交流,编程语言专区,鱼C论坛

xiaoflyfly 发表于 2019-1-6 20:08:12

抓取新浪军事中国军情标题、时间和链接——回复有彩蛋

import requests
from requests.exceptions import RequestException
import time
from bs4 import BeautifulSoup
import pandas as pd

def get_one_page(url):
try:
   headers = {
         'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'
   }
   response = requests.get(url, headers=headers)
   response.encoding = 'gb2312'
   if response.status_code == 200:
         return response.text
   return None
except RequestException:
   return None

def parse_one_page(html):
soup = BeautifulSoup(html, 'html.parser')
fList = soup.select('.fixList')
temp = []
for each in fList.select('li'):
   alink = {}
   alink['title'] = each.text
   alink['time'] = each.select('.time').text
   alink['url'] = each.select('a')['href']
   temp.append(alink)
return temp

def main(offset):
url = 'http://roll.mil.news.sina.com.cn/col/zgjq/index_' + str('offset') + '.shtml'
html = get_one_page(url)
text.extend(parse_one_page(html))

if __name__ == '__main__':
text = []
for i in range(10):
   main(offset=i)
   time.sleep(1)
df = pd.DataFrame(text)
df.to_csv("sina.csv", index=False, encoding='utf_8_sig')

回复有爬虫书籍**** Hidden Message *****《》PDF以及配套视频

gkj111111 发表于 2019-1-7 00:25:50

谢谢分享

happy_bb 发表于 2019-1-25 16:26:14

谢谢分享

肥卷肥肥 发表于 2020-2-22 12:26:54

谢谢分享

hua2082349 发表于 2020-2-22 14:34:22

谢谢大佬

PythonLV 发表于 2020-2-24 12:24:06

{:5_109:}

上官竹珣 发表于 2020-2-27 23:15:47

看看

EDX 发表于 2020-2-29 20:18:56

0.0.0.0.0.

buluo 发表于 2020-3-6 10:51:59

谢谢分享

yanghaolina 发表于 2020-3-6 16:55:15

大佬啊

唯爱75B 发表于 2020-3-13 16:27:26

谢谢分享

bbblbn 发表于 2020-3-15 16:04:31

学习

dengyk 发表于 2020-4-5 21:30:59

谢谢分享

Charleslay 发表于 2020-4-7 02:54:58

不是吧

tiejiang 发表于 2020-4-7 04:00:19

看看

dongxinghao 发表于 2020-4-9 22:36:54

要

isbella 发表于 2021-1-28 01:07:43

{:5_94:}

Xa@123456txc 发表于 2021-1-28 14:46:10

111

页: [1]

鱼C论坛's Archiver

抓取新浪 军事中国军情标题、时间和链接——回复有彩蛋

抓取新浪军事中国军情标题、时间和链接——回复有彩蛋