鱼C论坛

 找回密码
 立即注册
查看: 1823|回复: 4

[已解决]我用新方法爬取豆瓣top250数据,每次显示标题就是到25就循环

[复制链接]
回帖奖励 4 鱼币 回复本帖可获得 2 鱼币奖励! 每人限 1 次
发表于 2021-3-17 21:35:19 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
from selenium import webdriver
import re

for p in range(11):

    chrome_options = webdriver.ChromeOptions()  # 设置无界面浏览器设置
    chrome_options.add_argument('--headless')
    browser = webdriver.Chrome(options=chrome_options)
    url = 'https://movie.douban.com/top250?start='+str(25*p)+'&filter='
    browser.get(url)
    data = browser.page_source
    browser.quit()

    p_title = '<div class="hd">.*?>(.*?)</span>'
    p_href = '<div class="hd">.*?=(.*?) class="">'
    p_star = '<span class="rating_num" property="v:average">(.*?)</span>'
    title = re.findall(p_title, data, re.S)
    href = re.findall(p_href, data, re.S)
    star = re.findall(p_star, data, re.S)
    for i in range(len(title)):
        title[i] = title[i].strip()
        title[i] = re.sub('<.*?>', '', title[i])

    for i in range(len(title)):
        print(str(i+1)+'.'+title[i]+'--'+star[i])
        print(href[i])
代码如上,下面是爬取的名单,每次到25,序号就要循环,如何才能一下子到250?求助各位了。不好意思,贴的文件有点长
1.肖申克的救赎--9.7
"https://movie.douban.com/subject/1292052/"
2.霸王别姬--9.6
"https://movie.douban.com/subject/1291546/"
3.阿甘正传--9.5
"https://movie.douban.com/subject/1292720/"
4.这个杀手不太冷--9.4
"https://movie.douban.com/subject/1295644/"
5.泰坦尼克号--9.4
"https://movie.douban.com/subject/1292722/"
6.美丽人生--9.5
"https://movie.douban.com/subject/1292063/"
7.千与千寻--9.4
"https://movie.douban.com/subject/1291561/"
8.辛德勒的名单--9.5
"https://movie.douban.com/subject/1295124/"
9.盗梦空间--9.3
"https://movie.douban.com/subject/3541415/"
10.忠犬八公的故事--9.4
"https://movie.douban.com/subject/3011091/"
11.星际穿越--9.3
"https://movie.douban.com/subject/1889243/"
12.楚门的世界--9.3
"https://movie.douban.com/subject/1292064/"
13.海上钢琴师--9.3
"https://movie.douban.com/subject/1292001/"
14.三傻大闹宝莱坞--9.2
"https://movie.douban.com/subject/3793023/"
15.机器人总动员--9.3
"https://movie.douban.com/subject/2131459/"
16.放牛班的春天--9.3
"https://movie.douban.com/subject/1291549/"
17.大话西游之大圣娶亲--9.2
"https://movie.douban.com/subject/1292213/"
18.疯狂动物城--9.2
"https://movie.douban.com/subject/25662329/"
19.无间道--9.2
"https://movie.douban.com/subject/1307914/"
20.熔炉--9.3
"https://movie.douban.com/subject/5912992/"
21.教父--9.3
"https://movie.douban.com/subject/1291841/"
22.当幸福来敲门--9.1
"https://movie.douban.com/subject/1849031/"
23.龙猫--9.2
"https://movie.douban.com/subject/1291560/"
24.怦然心动--9.1
"https://movie.douban.com/subject/3319755/"
25.控方证人--9.6
"https://movie.douban.com/subject/1296141/"
1.触不可及--9.2
"https://movie.douban.com/subject/6786002/"
2.蝙蝠侠:黑暗骑士--9.2
"https://movie.douban.com/subject/1851857/"
3.末代皇帝--9.3
"https://movie.douban.com/subject/1293172/"
4.寻梦环游记--9.1
"https://movie.douban.com/subject/20495023/"
5.活着--9.3
"https://movie.douban.com/subject/1292365/"
6.何以为家--9.1
"https://movie.douban.com/subject/30170448/"
7.乱世佳人--9.3
"https://movie.douban.com/subject/1300267/"
8.指环王3:王者无敌--9.2
"https://movie.douban.com/subject/1291552/"
9.哈利·波特与魔法石--9.1
"https://movie.douban.com/subject/1295038/"
10.飞屋环游记--9.0
"https://movie.douban.com/subject/2129039/"
11.摔跤吧!爸爸--9.0
"https://movie.douban.com/subject/26387939/"
12.素媛--9.3
"https://movie.douban.com/subject/21937452/"
13.少年派的奇幻漂流--9.1
"https://movie.douban.com/subject/1929463/"
14.十二怒汉--9.4
"https://movie.douban.com/subject/1293182/"
15.哈尔的移动城堡--9.1
"https://movie.douban.com/subject/1308807/"
16.鬼子来了--9.3
"https://movie.douban.com/subject/1291858/"
17.大话西游之月光宝盒--9.0
"https://movie.douban.com/subject/1299398/"
18.天空之城--9.1
"https://movie.douban.com/subject/1291583/"
19.我不是药神--9.0
"https://movie.douban.com/subject/26752088/"
20.罗马假日--9.0
"https://movie.douban.com/subject/1293839/"
21.闻香识女人--9.1
"https://movie.douban.com/subject/1298624/"
22.辩护人--9.2
"https://movie.douban.com/subject/21937445/"
23.天堂电影院--9.2
"https://movie.douban.com/subject/1291828/"
24.猫鼠游戏--9.0
"https://movie.douban.com/subject/1305487/"
25.大闹天宫--9.4
"https://movie.douban.com/subject/1418019/"
1.搏击俱乐部--9.0
"https://movie.douban.com/subject/1292000/"
2.教父2--9.2
"https://movie.douban.com/subject/1299131/"
3.狮子王--9.0
"https://movie.douban.com/subject/1301753/"
4.钢琴家--9.2
"https://movie.douban.com/subject/1296736/"
5.指环王2:双塔奇兵--9.1
"https://movie.douban.com/subject/1291572/"
6.死亡诗社--9.1
"https://movie.douban.com/subject/1291548/"
7.黑客帝国--9.0
"https://movie.douban.com/subject/1291843/"
8.指环王1:魔戒再现--9.0
"https://movie.douban.com/subject/1291571/"
9.饮食男女--9.1
"https://movie.douban.com/subject/1291818/"
10.让子弹飞--8.9
"https://movie.douban.com/subject/3742360/"
11.美丽心灵--9.0
"https://movie.douban.com/subject/1306029/"
12.绿皮书--8.9
"https://movie.douban.com/subject/27060077/"
13.窃听风暴--9.2
"https://movie.douban.com/subject/1900841/"
14.两杆大烟枪--9.1
"https://movie.douban.com/subject/1293350/"
15.海蒂和爷爷--9.2
"https://movie.douban.com/subject/25958717/"
16.本杰明·巴顿奇事--8.9
"https://movie.douban.com/subject/1485260/"
17.飞越疯人院--9.1
"https://movie.douban.com/subject/1292224/"
18.看不见的客人--8.8
"https://movie.douban.com/subject/26580232/"
19.西西里的美丽传说--8.9
"https://movie.douban.com/subject/1292402/"
20.拯救大兵瑞恩--9.0
"https://movie.douban.com/subject/1292849/"
21.穿条纹睡衣的男孩--9.1
"https://movie.douban.com/subject/3008247/"
22.小鞋子--9.2
"https://movie.douban.com/subject/1303021/"
23.音乐之声--9.1
"https://movie.douban.com/subject/1294408/"
24.情书--8.9
"https://movie.douban.com/subject/1292220/"
25.海豚湾--9.3
"https://movie.douban.com/subject/3442220/"
1.美国往事--9.2
"https://movie.douban.com/subject/1292262/"
2.致命魔术--8.9
"https://movie.douban.com/subject/1780330/"
3.沉默的羔羊--8.9
"https://movie.douban.com/subject/1293544/"
4.禁闭岛--8.8
"https://movie.douban.com/subject/2334904/"
5.低俗小说--8.9
"https://movie.douban.com/subject/1291832/"
6.蝴蝶效应--8.8
"https://movie.douban.com/subject/1292343/"
7.心灵捕手--8.9
"https://movie.douban.com/subject/1292656/"
8.七宗罪--8.8
"https://movie.douban.com/subject/1292223/"
9.布达佩斯大饭店--8.9
"https://movie.douban.com/subject/11525673/"
10.春光乍泄--8.9
"https://movie.douban.com/subject/1292679/"
11.哈利·波特与死亡圣器(下)--8.9
"https://movie.douban.com/subject/3011235/"
12.阿凡达--8.8
"https://movie.douban.com/subject/1652587/"
13.摩登时代--9.3
"https://movie.douban.com/subject/1294371/"
14.被嫌弃的松子的一生--8.9
"https://movie.douban.com/subject/1787291/"
15.喜剧之王--8.8
"https://movie.douban.com/subject/1302425/"
16.致命ID--8.8
"https://movie.douban.com/subject/1297192/"
17.杀人回忆--8.9
"https://movie.douban.com/subject/1300299/"
18.剪刀手爱德华--8.7
"https://movie.douban.com/subject/1292370/"
19.加勒比海盗--8.8
"https://movie.douban.com/subject/1298070/"
20.勇敢的心--8.9
"https://movie.douban.com/subject/1294639/"
21.狩猎--9.1
"https://movie.douban.com/subject/6985810/"
22.请以你的名字呼唤我--8.9
"https://movie.douban.com/subject/26799731/"
23.天使爱美丽--8.7
"https://movie.douban.com/subject/1292215/"
24.断背山--8.8
"https://movie.douban.com/subject/1418834/"
25.红辣椒--9.0
"https://movie.douban.com/subject/1865703/"
1.7号房的礼物--8.9
"https://movie.douban.com/subject/10777687/"
2.幽灵公主--8.9
"https://movie.douban.com/subject/1297359/"
3.小森林 夏秋篇--9.0
"https://movie.douban.com/subject/25814705/"
4.第六感--8.9
"https://movie.douban.com/subject/1297630/"
5.阳光灿烂的日子--8.8
"https://movie.douban.com/subject/1291875/"
6.重庆森林--8.8
"https://movie.douban.com/subject/1291999/"
7.唐伯虎点秋香--8.7
"https://movie.douban.com/subject/1306249/"
8.超脱--8.9
"https://movie.douban.com/subject/5322596/"
9.爱在黎明破晓前--8.8
"https://movie.douban.com/subject/1296339/"
10.小森林 冬春篇--9.0
"https://movie.douban.com/subject/25814707/"
11.入殓师--8.9
"https://movie.douban.com/subject/2149806/"
12.功夫--8.7
"https://movie.douban.com/subject/1291543/"
13.一一--9.1
"https://movie.douban.com/subject/1292434/"
14.消失的爱人--8.7
"https://movie.douban.com/subject/21318488/"
15.蝙蝠侠:黑暗骑士崛起--8.8
"https://movie.douban.com/subject/3395373/"
16.菊次郎的夏天--8.8
"https://movie.douban.com/subject/1293359/"
17.人生果实--9.5
"https://movie.douban.com/subject/26874505/"
18.侧耳倾听--8.9
"https://movie.douban.com/subject/1297052/"
19.倩女幽魂--8.7
"https://movie.douban.com/subject/1297447/"
20.无人知晓--9.1
"https://movie.douban.com/subject/1292337/"
21.超能陆战队--8.7
"https://movie.douban.com/subject/11026735/"
22.甜蜜蜜--8.9
"https://movie.douban.com/subject/1305164/"
23.借东西的小人阿莉埃蒂--8.8
"https://movie.douban.com/subject/4202302/"
24.萤火之森--8.9
"https://movie.douban.com/subject/5989818/"
25.爱在日落黄昏时--8.8
"https://movie.douban.com/subject/1291990/"
1.完美的世界--9.1
"https://movie.douban.com/subject/1300992/"
2.哈利·波特与阿兹卡班的囚徒--8.8
"https://movie.douban.com/subject/1291544/"
3.玛丽和马克思--8.9
"https://movie.douban.com/subject/3072124/"
4.驯龙高手--8.7
"https://movie.douban.com/subject/2353023/"
5.幸福终点站--8.8
"https://movie.douban.com/subject/1292274/"
6.告白--8.7
"https://movie.douban.com/subject/4268598/"
7.大鱼--8.8
"https://movie.douban.com/subject/1291545/"
8.阳光姐妹淘--8.8
"https://movie.douban.com/subject/4917726/"
9.射雕英雄传之东成西就--8.7
"https://movie.douban.com/subject/1316510/"
10.天书奇谭--9.2
"https://movie.douban.com/subject/1428581/"
11.恐怖直播--8.8
"https://movie.douban.com/subject/21360417/"
12.怪兽电力公司--8.7
"https://movie.douban.com/subject/1291579/"
13.神偷奶爸--8.6
"https://movie.douban.com/subject/3287562/"
14.哈利·波特与密室--8.7
"https://movie.douban.com/subject/1296996/"
15.玩具总动员3--8.9
"https://movie.douban.com/subject/1858711/"
16.傲慢与偏见--8.6
"https://movie.douban.com/subject/1418200/"
17.时空恋旅人--8.8
"https://movie.douban.com/subject/10577869/"
18.教父3--8.9
"https://movie.douban.com/subject/1294240/"
19.釜山行--8.6
"https://movie.douban.com/subject/25986180/"
20.血战钢锯岭--8.7
"https://movie.douban.com/subject/26325320/"
21.哪吒闹海--9.1
"https://movie.douban.com/subject/1307315/"
22.被解救的姜戈--8.7
"https://movie.douban.com/subject/6307447/"
23.一个叫欧维的男人决定去死--8.9
"https://movie.douban.com/subject/26628357/"
24.七武士--9.3
"https://movie.douban.com/subject/1295399/"
25.喜宴--8.9
"https://movie.douban.com/subject/1303037/"
1.电锯惊魂--8.7
"https://movie.douban.com/subject/1417598/"
2.我是山姆--8.9
"https://movie.douban.com/subject/1306861/"
3.风之谷--8.9
"https://movie.douban.com/subject/1291585/"
4.头号玩家--8.6
"https://movie.douban.com/subject/4920389/"
5.英雄本色--8.7
"https://movie.douban.com/subject/1297574/"
6.上帝之城--9.0
"https://movie.douban.com/subject/1292208/"
7.未麻的部屋--9.0
"https://movie.douban.com/subject/1395091/"
8.谍影重重3--8.8
"https://movie.douban.com/subject/1578507/"
9.疯狂原始人--8.7
"https://movie.douban.com/subject/1907966/"
10.卢旺达饭店--8.9
"https://movie.douban.com/subject/1291822/"
11.三块广告牌--8.7
"https://movie.douban.com/subject/26611804/"
12.纵横四海--8.8
"https://movie.douban.com/subject/1295409/"
13.花样年华--8.7
"https://movie.douban.com/subject/1291557/"
14.岁月神偷--8.7
"https://movie.douban.com/subject/3792799/"
15.达拉斯买家俱乐部--8.8
"https://movie.douban.com/subject/1793929/"
16.模仿游戏--8.7
"https://movie.douban.com/subject/10463953/"
17.黑客帝国3:矩阵革命--8.8
"https://movie.douban.com/subject/1302467/"
18.心迷宫--8.7
"https://movie.douban.com/subject/25917973/"
19.新世界--8.8
"https://movie.douban.com/subject/10437779/"
20.记忆碎片--8.6
"https://movie.douban.com/subject/1304447/"
21.头脑特工队--8.7
"https://movie.douban.com/subject/10533913/"
22.荒蛮故事--8.8
"https://movie.douban.com/subject/24750126/"
23.忠犬八公物语--9.2
"https://movie.douban.com/subject/1959195/"
24.你的名字。--8.4
"https://movie.douban.com/subject/26683290/"
25.真爱至上--8.6
"https://movie.douban.com/subject/1292401/"
1.爆裂鼓手--8.7
"https://movie.douban.com/subject/25773932/"
2.贫民窟的百万富翁--8.6
"https://movie.douban.com/subject/2209573/"
3.海街日记--8.8
"https://movie.douban.com/subject/25895901/"
4.东邪西毒--8.6
"https://movie.douban.com/subject/1292328/"
5.萤火虫之墓--8.7
"https://movie.douban.com/subject/1293318/"
6.惊魂记--9.0
"https://movie.douban.com/subject/1293181/"
7.黑天鹅--8.6
"https://movie.douban.com/subject/1978709/"
8.寄生虫--8.7
"https://movie.douban.com/subject/27010768/"
9.无敌破坏王--8.7
"https://movie.douban.com/subject/6534248/"
10.你看起来好像很好吃--8.9
"https://movie.douban.com/subject/4848115/"
11.冰川时代--8.6
"https://movie.douban.com/subject/1291578/"
12.小偷家族--8.7
"https://movie.douban.com/subject/27622447/"
13.绿里奇迹--8.9
"https://movie.douban.com/subject/1300374/"
14.哈利·波特与火焰杯--8.6
"https://movie.douban.com/subject/1309055/"
15.雨人--8.7
"https://movie.douban.com/subject/1291870/"
16.爱在午夜降临前--8.8
"https://movie.douban.com/subject/10808442/"
17.恋恋笔记本--8.5
"https://movie.douban.com/subject/1309163/"
18.疯狂的石头--8.5
"https://movie.douban.com/subject/1862151/"
19.恐怖游轮--8.5
"https://movie.douban.com/subject/3011051/"
20.九品芝麻官--8.6
"https://movie.douban.com/subject/1297518/"
21.奇迹男孩--8.6
"https://movie.douban.com/subject/26787574/"
22.雨中曲--9.0
"https://movie.douban.com/subject/1293460/"
23.魔女宅急便--8.7
"https://movie.douban.com/subject/1307811/"
24.二十二--8.7
"https://movie.douban.com/subject/26430107/"
25.虎口脱险--8.9
"https://movie.douban.com/subject/1296909/"
1.海边的曼彻斯特--8.6
"https://movie.douban.com/subject/25980443/"
2.房间--8.8
"https://movie.douban.com/subject/25724855/"
3.人工智能--8.7
"https://movie.douban.com/subject/1302827/"
4.2001太空漫游--8.8
"https://movie.douban.com/subject/1292226/"
5.色,戒--8.5
"https://movie.douban.com/subject/1828115/"
6.可可西里--8.8
"https://movie.douban.com/subject/1308857/"
7.城市之光--9.3
"https://movie.douban.com/subject/1293908/"
8.罗生门--8.8
"https://movie.douban.com/subject/1291879/"
9.终结者2:审判日--8.7
"https://movie.douban.com/subject/1291844/"
10.初恋这件小事--8.4
"https://movie.douban.com/subject/4739952/"
11.魂断蓝桥--8.8
"https://movie.douban.com/subject/1293964/"
12.大佛普拉斯--8.7
"https://movie.douban.com/subject/27059130/"
13.遗愿清单--8.7
"https://movie.douban.com/subject/1867345/"
14.波西米亚狂想曲--8.7
"https://movie.douban.com/subject/5300054/"
15.牯岭街少年杀人事件--8.9
"https://movie.douban.com/subject/1292329/"
16.源代码--8.5
"https://movie.douban.com/subject/3075287/"
17.新龙门客栈--8.6
"https://movie.douban.com/subject/1292287/"
18.青蛇--8.6
"https://movie.douban.com/subject/1303394/"
19.无耻混蛋--8.6
"https://movie.douban.com/subject/1438652/"
20.疯狂的麦克斯4:狂暴之路--8.6
"https://movie.douban.com/subject/3592854/"
21.燃情岁月--8.8
"https://movie.douban.com/subject/1295865/"
22.海洋--9.1
"https://movie.douban.com/subject/3443389/"
23.血钻--8.7
"https://movie.douban.com/subject/1428175/"
24.步履不停--8.8
"https://movie.douban.com/subject/2222996/"
25.穿越时空的少女--8.6
"https://movie.douban.com/subject/1937946/"
1.谍影重重2--8.7
"https://movie.douban.com/subject/1308767/"
2.阿飞正传--8.5
"https://movie.douban.com/subject/1305690/"
3.彗星来的那一夜--8.5
"https://movie.douban.com/subject/25807345/"
4.战争之王--8.7
"https://movie.douban.com/subject/1419936/"
5.地球上的星星--8.9
"https://movie.douban.com/subject/2363506/"
6.完美陌生人--8.5
"https://movie.douban.com/subject/26614893/"
7.谍影重重--8.6
"https://movie.douban.com/subject/1304102/"
8.东京教父--9.0
"https://movie.douban.com/subject/1310177/"
9.香水--8.5
"https://movie.douban.com/subject/1760622/"
10.无间道2--8.6
"https://movie.douban.com/subject/1307106/"
11.千钧一发--8.8
"https://movie.douban.com/subject/1300117/"
12.东京物语--9.2
"https://movie.douban.com/subject/1291568/"
13.黑客帝国2:重装上阵--8.6
"https://movie.douban.com/subject/1304141/"
14.朗读者--8.6
"https://movie.douban.com/subject/2213597/"
15.再次出发之纽约遇见你--8.6
"https://movie.douban.com/subject/6874403/"
16.崖上的波妞--8.5
"https://movie.douban.com/subject/1959877/"
17.驴得水--8.3
"https://movie.douban.com/subject/25921812/"
18.我爱你--9.1
"https://movie.douban.com/subject/5908478/"
19.猜火车--8.5
"https://movie.douban.com/subject/1292528/"
20.浪潮--8.7
"https://movie.douban.com/subject/2297265/"
21.聚焦--8.8
"https://movie.douban.com/subject/25954475/"
22.小萝莉的猴神大叔--8.4
"https://movie.douban.com/subject/26393561/"
23.追随--8.9
"https://movie.douban.com/subject/1397546/"
24.黑鹰坠落--8.7
"https://movie.douban.com/subject/1291824/"
25.网络谜踪--8.6
"https://movie.douban.com/subject/27615441/"

最佳答案
2021-3-18 10:29:29
因为没有累加,len一直是25,改成累加方式:
import requests
import re


def main():
    base_url = 'https://movie.douban.com/top250?'
    headers = {'user-agent': 'firefox'}
    m_name = []
    m_href = []
    m_star = []
    for x in range(0, 250, 25):
        url = base_url + f'start={x}'
        r = requests.get(url, headers=headers)
        t_name = re.findall(r'<span class="title">(.*?)</span>', r.text)
        t_href = re.findall(r'<a href="(.*?)" class="">', r.text)
        t_star = re.findall(r'property="v:average">(.*?)</span>', r.text)
        f_name = []
        for item in t_name:
            if 'nbsp' not in item:
                f_name.append(item)
        m_name.extend(f_name)
        m_href.extend(t_href)
        m_star.extend(t_star)
    print(m_name, m_href, m_star)


if __name__ == '__main__':
    main()

另外爬数据,还是urllib+xpath合适,selenium适合需要UI操作的环境。
import requests
from lxml import etree


def main():
    base_url = 'https://movie.douban.com/top250?'
    headers = {'user-agent': 'firefox'}
    movies = []
    for x in range(0, 250, 25):
        url = base_url + f'start={x}'
        r = requests.get(url, headers=headers)
        html = etree.HTML(r.text)
        lis = html.xpath('//ol[@class="grid_view"]/li')
        for li in lis:
            m_name = li.xpath('.//div[@class="hd"]/a/span[1]/text()')[0]
            m_rank = li.xpath('.//div[@class="pic"]/em/text()')[0]
            m_score = li.xpath('.//div[@class="star"]/span[2]/text()')[0]
            m_comment = li.xpath('./div/div[2]/div[2]/p[2]/span/text()')  # 获取评价
            if not m_comment:   # 如果为空
                m_comment = '没有评价'   # 写入没有评价
            else:
                m_comment = m_comment[0]   # 如果有值,那么取出内容(因为xpath取出后是列表)
            movies.append([m_name, m_rank, m_score, m_comment])
    for i in movies:
        print(i)
        print('=' * 100)


if __name__ == '__main__':
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-3-18 10:29:29 | 显示全部楼层    本楼为最佳答案   

回帖奖励 +2 鱼币

因为没有累加,len一直是25,改成累加方式:
import requests
import re


def main():
    base_url = 'https://movie.douban.com/top250?'
    headers = {'user-agent': 'firefox'}
    m_name = []
    m_href = []
    m_star = []
    for x in range(0, 250, 25):
        url = base_url + f'start={x}'
        r = requests.get(url, headers=headers)
        t_name = re.findall(r'<span class="title">(.*?)</span>', r.text)
        t_href = re.findall(r'<a href="(.*?)" class="">', r.text)
        t_star = re.findall(r'property="v:average">(.*?)</span>', r.text)
        f_name = []
        for item in t_name:
            if 'nbsp' not in item:
                f_name.append(item)
        m_name.extend(f_name)
        m_href.extend(t_href)
        m_star.extend(t_star)
    print(m_name, m_href, m_star)


if __name__ == '__main__':
    main()

另外爬数据,还是urllib+xpath合适,selenium适合需要UI操作的环境。
import requests
from lxml import etree


def main():
    base_url = 'https://movie.douban.com/top250?'
    headers = {'user-agent': 'firefox'}
    movies = []
    for x in range(0, 250, 25):
        url = base_url + f'start={x}'
        r = requests.get(url, headers=headers)
        html = etree.HTML(r.text)
        lis = html.xpath('//ol[@class="grid_view"]/li')
        for li in lis:
            m_name = li.xpath('.//div[@class="hd"]/a/span[1]/text()')[0]
            m_rank = li.xpath('.//div[@class="pic"]/em/text()')[0]
            m_score = li.xpath('.//div[@class="star"]/span[2]/text()')[0]
            m_comment = li.xpath('./div/div[2]/div[2]/p[2]/span/text()')  # 获取评价
            if not m_comment:   # 如果为空
                m_comment = '没有评价'   # 写入没有评价
            else:
                m_comment = m_comment[0]   # 如果有值,那么取出内容(因为xpath取出后是列表)
            movies.append([m_name, m_rank, m_score, m_comment])
    for i in movies:
        print(i)
        print('=' * 100)


if __name__ == '__main__':
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-18 14:06:38 | 显示全部楼层
suchocolate 发表于 2021-3-18 10:29
因为没有累加,len一直是25,改成累加方式:

另外爬数据,还是urllib+xpath合适,selenium适合需要UI操 ...

嗯嗯,selenium适合UI界面的。另外就是按照我的代码如何修改,可以实现一直到250,我还是有点迷惑
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-18 15:30:37 | 显示全部楼层
超哥超级爱学习 发表于 2021-3-18 14:06
嗯嗯,selenium适合UI界面的。另外就是按照我的代码如何修改,可以实现一直到250,我还是有点迷惑{:10_24 ...

像我的那个一样,新建一个总的列表,循环时把每页的结果加入到总的列表,就是累加。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-18 17:22:44 | 显示全部楼层
suchocolate 发表于 2021-3-18 15:30
像我的那个一样,新建一个总的列表,循环时把每页的结果加入到总的列表,就是累加。

哦哦 理解了 感谢感谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-16 07:49

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表