[已解决]请问这段代码爬虫爬的都是一样的内容？？？

slhlde · 发表于 2019-12-19 23:28:37

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 slhlde 于 2019-12-19 23:29 编辑

import requests
import re
from lxml import etree
import time

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}

def get_movie_info(url):
html=requests.get(url,headers=headers)
print('======打印网页状态，确认是否被反爬虫=======')
print(html.status_code)

selector=etree.HTML(html.text)

infos=selector.xpath('//div[@class="info"]')
print('======打印所有infos======')
print(infos)

for info in infos:
      names=info.xpath('//div[@class="hd"]/a/span/text()')[0]
      directors_actors=info.xpath('//div[@class="bd"]/p[1]/text()')[0].replace(" ", "").replace("\n", "")
      dates=info.xpath('//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[0]
      countrys=info.xpath('//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[1]
      stypes=info.xpath('//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[2]
      scores=info.xpath('//span[@class="rating_num"]/text()')[0]
      comCounts=info.xpath('//div[@class="star"]/span[4]/text()')[0]
      data = {
         'name': names,
         'directors_actor': directors_actors,
         'date': dates,
         'stype': stypes,
         'country': countrys,
         'score': scores,
         'comCount':comCounts
         }
      print(data)

if __name__=="__main__":
urls=['https://movie.douban.com/top250?start={}&filter='.format(str(i)) for i in range(0,250,25)]
for url in urls:
      print('==========打印当前的地址========')
      print(url)
      get_movie_info(url)
      time.sleep(2)

QQ截图20191219232822.png

最佳答案

月排行榜 / 总排行榜

yjsx86

2019-12-20 21:06:27

本帖最后由 yjsx86 于 2019-12-20 21:08 编辑

xpath语法有问题 // 改为 .//

然后print(data)缩进有问题

import requests
import re
from lxml import etree
import time
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
def get_movie_info(url):
html=requests.get(url,headers=headers)
print('======打印网页状态，确认是否被反爬虫=======')
print(html.status_code)
selector=etree.HTML(html.text)
infos=selector.xpath('//div[@class="info"]')
print('======打印所有infos======')
print(infos)
for info in infos:
names=info.xpath('.//div[@class="hd"]/a/span/text()')[0]
directors_actors=info.xpath('.//div[@class="bd"]/p[1]/text()')[0].replace(" ", "").replace("\n", "")
dates=info.xpath('.//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[0]
countrys=info.xpath('.//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[1]
stypes=info.xpath('.//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[2]
scores=info.xpath('.//span[@class="rating_num"]/text()')[0]
comCounts=info.xpath('.//div[@class="star"]/span[4]/text()')[0]
data = {
'name': names,
'directors_actor': directors_actors,
'date': dates,
'stype': stypes,
'country': countrys,
'score': scores,
'comCount':comCounts
}
print(data)
if __name__=="__main__":
urls=['https://movie.douban.com/top250?start={}&filter='.format(str(i)) for i in range(0,250,25)]
for url in urls:
print('==========打印当前的地址========')
print(url)
get_movie_info(url)
time.sleep(2)

复制代码

跳转到最佳答案楼层

slhlde · 发表于 2019-12-19 23:30:37

为啥打印的都是一样的内容？？？？？已经写了一个循环。。。

wongyusing · 发表于 2019-12-20 00:21:09

缩进啊

import requests
import re
from lxml import etree
import time
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
def get_movie_info(url):
html=requests.get(url,headers=headers)
print('======打印网页状态，确认是否被反爬虫=======')
print(html.status_code)
selector=etree.HTML(html.text)
infos=selector.xpath('//div[@class="info"]')
print('======打印所有infos======')
print(infos)
for info in infos:
names=info.xpath('//div[@class="hd"]/a/span/text()')[0]
directors_actors=info.xpath('//div[@class="bd"]/p[1]/text()')[0].replace(" ", "").replace("\n", "")
dates=info.xpath('//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[0]
countrys=info.xpath('//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[1]
stypes=info.xpath('//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[2]
scores=info.xpath('//span[@class="rating_num"]/text()')[0]
comCounts=info.xpath('//div[@class="star"]/span[4]/text()')[0]
data = {
'name': names,
'directors_actor': directors_actors,
'date': dates,
'stype': stypes,
'country': countrys,
'score': scores,
'comCount':comCounts
}
print(data)
if __name__=="__main__":
urls=['https://movie.douban.com/top250?start={}&filter='.format(str(i)) for i in range(0,250,25)]
for url in urls:
print('==========打印当前的地址========')
print(url)
get_movie_info(url)
time.sleep(2)

复制代码

slhlde · 发表于 2019-12-20 20:01:24

wongyusing 发表于 2019-12-20 00:21
缩进啊

我按照你的代码试了只能抓到每页的第一个，别的都抓不到

slhlde · 发表于 2019-12-20 20:02:02

wongyusing 发表于 2019-12-20 00:21
缩进啊

slhlde · 发表于 2019-12-20 20:02:36

@wongyusing

yjsx86 · 发表于 2019-12-20 21:06:27

这个最佳答案由 yjsx86 给出，感谢 yjsx86 的回答。

单击隐藏图章

本帖最后由 yjsx86 于 2019-12-20 21:08 编辑

xpath语法有问题 // 改为 .//

然后print(data)缩进有问题

import requests
import re
from lxml import etree
import time
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
def get_movie_info(url):
html=requests.get(url,headers=headers)
print('======打印网页状态，确认是否被反爬虫=======')
print(html.status_code)
selector=etree.HTML(html.text)
infos=selector.xpath('//div[@class="info"]')
print('======打印所有infos======')
print(infos)
for info in infos:
names=info.xpath('.//div[@class="hd"]/a/span/text()')[0]
directors_actors=info.xpath('.//div[@class="bd"]/p[1]/text()')[0].replace(" ", "").replace("\n", "")
dates=info.xpath('.//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[0]
countrys=info.xpath('.//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[1]
stypes=info.xpath('.//div[@class="bd"]/p[1]/text()')[1].replace(" ", "").replace("\n", "").split("/")[2]
scores=info.xpath('.//span[@class="rating_num"]/text()')[0]
comCounts=info.xpath('.//div[@class="star"]/span[4]/text()')[0]
data = {
'name': names,
'directors_actor': directors_actors,
'date': dates,
'stype': stypes,
'country': countrys,
'score': scores,
'comCount':comCounts
}
print(data)
if __name__=="__main__":
urls=['https://movie.douban.com/top250?start={}&filter='.format(str(i)) for i in range(0,250,25)]
for url in urls:
print('==========打印当前的地址========')
print(url)
get_movie_info(url)
time.sleep(2)

复制代码

slhlde · 发表于 2019-12-20 21:14:56

yjsx86 发表于 2019-12-20 21:06
xpath语法有问题 // 改为 .//

然后print(data)缩进有问题

这个点，有和没有区别在哪啊？多谢你的回复。

yjsx86 · 发表于 2019-12-20 22:53:33

slhlde 发表于 2019-12-20 21:14
这个点，有和没有区别在哪啊？多谢你的回复。

自己搜索一下xpath语法

账号		自动登录	找回密码
密码			立即注册

[已解决]请问这段代码爬虫爬的都是一样的内容？？？

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块