正则
有没有正则教程?{:10_257:} 正则老是弄不好{:10_269:}https://docs.microsoft.com/en-us/dotnet/standard/base-types/regular-expression-language-quick-reference?redirectedfrom=MSDN
哈哈这个微软官方的手册,英文的{:10_250:} Twilight6 发表于 2020-6-26 14:00
https://docs.microsoft.com/en-us/dotnet/standard/base-types/regular-expression-language-quick-refe ...
我用翻译试试看{:10_250:} xiaosi4081 发表于 2020-6-26 14:01
我用翻译试试看
对了 菜鸟这也有一些正则教程:
https://www.runoob.com/regexp/regexp-tutorial.html 本帖最后由 xiaosi4081 于 2020-6-26 14:17 编辑
Twilight6 发表于 2020-6-26 14:03
对了 菜鸟这也有一些正则教程:
https://www.runoob.com/regexp/regexp-tutorial.html
还有这个代码老出错:
import requests
import re
i = 0
while i <= 250:
url = "https://movie.douban.com/top250?start={}".format(i)
res = requests.get(url).text
print(re.findall(r'<div class="info">(.*?)</div>',res))
i += 25
帮忙看下{:10_297:} xiaosi4081 发表于 2020-6-26 14:13
还有这个代码老出错:
{:10_257:} 你连 headers 都不加 豆瓣是爬不到数据的 xiaosi4081 发表于 2020-6-26 14:13
还有这个代码老出错:
你是想爬div标签的什么内容? Twilight6 发表于 2020-6-26 14:23
你是想爬div标签的什么内容?
视频资料 xiaosi4081 发表于 2020-6-26 14:24
视频资料
你是想用正则一次性把 <div class="info">标签里的视频资料全部提取嘛?这个好像我就不怎么会了 Twilight6 发表于 2020-6-26 14:29
你是想用正则一次性把 标签里的视频资料全部提取嘛?这个好像我就不怎么会了
好吧{:10_266:} xiaosi4081 发表于 2020-6-26 14:30
好吧
这个提取中文标题~嘿嘿
import requests
import re
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}
i = 0
while i <= 250:
url = "https://movie.douban.com/top250?start={}".format(i)
res = requests.get(url,headers=headers).text
print(re.findall(r'<span class="title">(?!&)(.+?)</span>',res))
i += 25
页:
[1]