[已解决]爬不同页的新闻时不同页的网址没有什么规律

chunguang · 发表于 2018-8-6 15:15:26

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 chunguang 于 2018-8-6 15:20 编辑

怎样爬取不同页面的数据
我的第一页的网址是  http://www.echinatobacco.com/html/site27/ynzlyns/index.html
第二页的网址是  http://www.echinatobacco.com/html/site27/ynzlyns/index_2.html
第三页的网址是  http://www.echinatobacco.com/html/site27/ynzlyns/index_3.html
........
感觉没有什么规律，求大神

import requests
import json
import re
from multiprocessing import Pool
from requests.exceptions import RequestException
def get_one_page(url):
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
try:
response=requests.get(url,headers=headers)
if response.status_code==200:
return response.text
return None
except RequestException:
return None
def parse_one_page(html):
pattern=re.compile('<li>.*?blank">(.*?)</a>(.*?)</li>',re.S)
items=re.findall(pattern,html)
for item in items:
yield{
'title':item[0],
'time':item[1]
}
def main(page):
url='http://www.echinatobacco.com/html/site27/ynzlyns/index'+'_'+str(page)+'.html'
html=get_one_page(url)
for item in parse_one_page(html):
print(item)
if __name__=='__main__':
pool=Pool()
pool.map(main,[i+2 for i in range(53)])

复制代码

最佳答案

月排行榜 / 总排行榜

无符号整形

2018-8-6 15:44:18

chunguang 发表于 2018-8-6 15:41
出现这样的错误
而且第一页并没有被爬下来

import requests
import json
import re
from multiprocessing import Pool
from requests.exceptions import RequestException
def get_one_page(url):
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
try:
response=requests.get(url,headers=headers)
if response.status_code==200:
return response.text
return None
except RequestException:
return None
def parse_one_page(html):
pattern=re.compile('<li>.*?blank">(.*?)</a>(.*?)</li>',re.S)
items=re.findall(pattern,html)
for item in items:
yield{
'title':item[0],
'time':item[1]
}
def main(page):
if page != 1:#第一页不用_page的形式
url='http://www.echinatobacco.com/html/site27/ynzlyns/index'+'_'+str(page)+'.html'
else:
url='http://www.echinatobacco.com/html/site27/ynzlyns/index.html'
html=get_one_page(url)
for item in parse_one_page(html):
print(item)
if __name__=='__main__':
pool=Pool()
pool.map(main,[i+2 for i in range(53)])

复制代码

试试这个？我好像忘记设置page==1的时候的url了。

跳转到最佳答案楼层

无符号整形 · 发表于 2018-8-6 15:22:56

应该ok？

import requests
import json
import re
from multiprocessing import Pool
from requests.exceptions import RequestException
def get_one_page(url):
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
try:
response=requests.get(url,headers=headers)
if response.status_code==200:
return response.text
return None
except RequestException:
return None
def parse_one_page(html):
pattern=re.compile('<li>.*?blank">(.*?)</a>(.*?)</li>',re.S)
items=re.findall(pattern,html)
for item in items:
yield{
'title':item[0],
'time':item[1]
}
def main(page):
if page != 1:#第一页不用_page的形式
url='http://www.echinatobacco.com/html/site27/ynzlyns/index'+'_'+str(page)+'.html'
html=get_one_page(url)
for item in parse_one_page(html):
print(item)
if __name__=='__main__':
pool=Pool()
pool.map(main,[i+2 for i in range(53)])

复制代码

chunguang · 发表于 2018-8-6 15:31:34

无符号整形发表于 2018-8-6 15:22
应该ok？

怎么样连第一页的也爬取出来

无符号整形 · 发表于 2018-8-6 15:32:45

chunguang 发表于 2018-8-6 15:31
怎么样连第一页的也爬取出来

我终于注意到了i+2……

import requests
import json
import re
from multiprocessing import Pool
from requests.exceptions import RequestException
def get_one_page(url):
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
try:
response=requests.get(url,headers=headers)
if response.status_code==200:
return response.text
return None
except RequestException:
return None
def parse_one_page(html):
pattern=re.compile('<li>.*?blank">(.*?)</a>(.*?)</li>',re.S)
items=re.findall(pattern,html)
for item in items:
yield{
'title':item[0],
'time':item[1]
}
def main(page):
if page != 1:#第一页不用_page的形式
url='http://www.echinatobacco.com/html/site27/ynzlyns/index'+'_'+str(page)+'.html'
html=get_one_page(url)
for item in parse_one_page(html):
print(item)
if __name__=='__main__':
pool=Pool()
pool.map(main,[i+1 for i in range(53)])

复制代码

无符号整形 · 发表于 2018-8-6 15:40:17

chunguang 发表于 2018-8-6 15:31
怎么样连第一页的也爬取出来

4楼的代码应该可以运行了吧？

chunguang · 发表于 2018-8-6 15:41:33

无符号整形发表于 2018-8-6 15:32
我终于注意到了i+2……

出现这样的错误
而且第一页并没有被爬下来

无符号整形 · 发表于 2018-8-6 15:44:18

chunguang 发表于 2018-8-6 15:41
出现这样的错误
而且第一页并没有被爬下来

import requests
import json
import re
from multiprocessing import Pool
from requests.exceptions import RequestException
def get_one_page(url):
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
try:
response=requests.get(url,headers=headers)
if response.status_code==200:
return response.text
return None
except RequestException:
return None
def parse_one_page(html):
pattern=re.compile('<li>.*?blank">(.*?)</a>(.*?)</li>',re.S)
items=re.findall(pattern,html)
for item in items:
yield{
'title':item[0],
'time':item[1]
}
def main(page):
if page != 1:#第一页不用_page的形式
url='http://www.echinatobacco.com/html/site27/ynzlyns/index'+'_'+str(page)+'.html'
else:
url='http://www.echinatobacco.com/html/site27/ynzlyns/index.html'
html=get_one_page(url)
for item in parse_one_page(html):
print(item)
if __name__=='__main__':
pool=Pool()
pool.map(main,[i+2 for i in range(53)])

复制代码

试试这个？我好像忘记设置page==1的时候的url了。

chunguang · 发表于 2018-8-6 16:04:41

本帖最后由 chunguang 于 2018-8-6 16:10 编辑

def write_to_file(content):
with open(r'C:\Users\lenovo\Desktop\爬虫\烟草\烟草咨询.csv','a',encoding='utf-8') as f:
f.write(json.dumps(content,ensure_ascii=False)+'\n')
f.close()

复制代码

我还想弱弱的问一句，怎样将他储存到csv文件中

账号		自动登录	找回密码
密码			立即注册

[已解决]爬不同页的新闻时不同页的网址没有什么规律

马上注册，结交更多好友，享用更多功能^_^

点评

浏览过的版块