[已解决]爬取豆瓣某一页的电影名称并保存为csv文件

私はり · 发表于 2020-11-27 22:18:33

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

采用urllib爬取https://movie.douban.com/chart 页面下的电影名称，将其保存在movie.csv文件中

最佳答案

月排行榜 / 总排行榜

suchocolate

2020-11-29 19:30:18

本帖最后由 suchocolate 于 2020-11-29 19:37 编辑

私はり发表于 2020-11-29 19:24
竖着·排列怎么变

竖着排列

import requests
from lxml import etree
import csv
def main():
url = 'https://movie.douban.com/chart'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
result = html.xpath('//span[@style="font-size:13px;"]/text()')
print(result)
with open('movies.csv', 'w', encoding='utf-8', newline='') as csvfile: # 注意多了一个newline参数，防止空行出现。
writer = csv.writer(csvfile)
for item in result:
writer.writerow([item])
print('done')
if __name__ == '__main__':
main()

复制代码

跳转到最佳答案楼层

suchocolate · 发表于 2020-11-28 17:14:01

本帖最后由 suchocolate 于 2020-11-28 20:48 编辑

from urllib import request
from lxml import etree
import csv
def main():
headers = {'User-Agent': 'Firefox'}
req = request.Request('https://movie.douban.com/chart', headers=headers)
r = request.urlopen(req)
html = etree.HTML(r.read().decode('utf-8'))
result = html.xpath('//span[@style="font-size:13px;"]/text()')
print(result)
with open('movies.csv', 'w', encoding='utf-8') as csvfile:
writer = csv.writer(csvfile)
writer.writerow(result)
print('done')
if __name__ == '__main__':
main()

复制代码

import requests
from lxml import etree
import csv
def main():
url = 'https://movie.douban.com/chart'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
result = html.xpath('//span[@style="font-size:13px;"]/text()')
print(result)
with open('movies.csv', 'w', encoding='utf-8') as csvfile:
writer = csv.writer(csvfile)
writer.writerow(result)
print('done')
if __name__ == '__main__':
main()

复制代码

私はり · 发表于 2020-11-29 19:24:32

suchocolate 发表于 2020-11-28 17:14

竖着·排列怎么变

私はり · 发表于 2020-11-29 19:26:35

suchocolate 发表于 2020-11-28 17:14

那个正则表达式怎么写的，最后那个两行代码是什么意思呢，大佬

suchocolate · 发表于 2020-11-29 19:30:18

这个最佳答案由 suchocolate 给出，感谢 suchocolate 的回答。

单击隐藏图章

本帖最后由 suchocolate 于 2020-11-29 19:37 编辑

私はり发表于 2020-11-29 19:24
竖着·排列怎么变

竖着排列

import requests
from lxml import etree
import csv
def main():
url = 'https://movie.douban.com/chart'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
result = html.xpath('//span[@style="font-size:13px;"]/text()')
print(result)
with open('movies.csv', 'w', encoding='utf-8', newline='') as csvfile: # 注意多了一个newline参数，防止空行出现。
writer = csv.writer(csvfile)
for item in result:
writer.writerow([item])
print('done')
if __name__ == '__main__':
main()

复制代码

suchocolate · 发表于 2020-11-29 19:41:02

私はり发表于 2020-11-29 19:26
那个正则表达式怎么写的，最后那个两行代码是什么意思呢，大佬

那个是xpath，是用来解析html的，你网上搜一下就知道了。
if __name__ == '__main__'当模块被直接运行时，以下代码块将被运行，当模块是被导入时，代码块不被运行。
习惯性写法，养成好习惯。

私はり · 发表于 2020-11-29 20:15:28

suchocolate 发表于 2020-11-29 19:41
那个是xpath，是用来解析html的，你网上搜一下就知道了。
if __name__ == '__main__'当模块被直接运行时 ...

好的多谢

私はり · 发表于 2020-11-29 20:19:18

suchocolate 发表于 2020-11-28 17:14

import requests
from bs4 import BeautifulSoup
url2="https://movie.douban.com/chart"
hs={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',}
res = requests.get(url2, headers=hs)
print(res.status_code)
text = res.text
#print(text)
soup = BeautifulSoup(text,'html.parser')
tags = soup('img')
for li in tags:
  result=li['alt']
  print(result)
我这个代码的 alt  那几行代码是干什么的呀
tags = soup('img')
for li in tags:
  result=li['alt']
  print(result)

suchocolate · 发表于 2020-11-30 20:11:18

私はり发表于 2020-11-29 20:19
import requests
from bs4 import BeautifulSoup
url2="https://movie.douban.com/chart"

img元素的alt属性的内容，以后不知道内容多打印一下就知道了，学会自己分析。

账号		自动登录	找回密码
密码			立即注册