[已解决]正则

xiaosi4081 · 发表于 2020-6-26 13:56:32

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

有没有正则教程？

正则老是弄不好

最佳答案

月排行榜 / 总排行榜

Twilight6

2020-6-26 14:00:14

https://docs.microsoft.com/en-us ... redirectedfrom=MSDN

哈哈这个微软官方的手册，英文的

跳转到最佳答案楼层

Twilight6 · 发表于 2020-6-26 14:00:14

这个最佳答案由 Twilight6 给出，感谢 Twilight6 的回答。

单击隐藏图章

https://docs.microsoft.com/en-us ... redirectedfrom=MSDN

哈哈这个微软官方的手册，英文的

xiaosi4081 · 发表于 2020-6-26 14:01:08

Twilight6 发表于 2020-6-26 14:00
https://docs.microsoft.com/en-us/dotnet/standard/base-types/regular-expression-language-quick-refe ...

我用翻译试试看

Twilight6 · 发表于 2020-6-26 14:03:22

xiaosi4081 发表于 2020-6-26 14:01
我用翻译试试看

对了菜鸟这也有一些正则教程：

https://www.runoob.com/regexp/regexp-tutorial.html

xiaosi4081 · 发表于 2020-6-26 14:13:34

本帖最后由 xiaosi4081 于 2020-6-26 14:17 编辑

Twilight6 发表于 2020-6-26 14:03
对了菜鸟这也有一些正则教程：

https://www.runoob.com/regexp/regexp-tutorial.html

还有这个代码老出错：

import requests
import re
i = 0
while i <= 250:
url = "https://movie.douban.com/top250?start={}".format(i)
res = requests.get(url).text
print(re.findall(r'<div class="info">(.*?)</div>',res))
i += 25

复制代码

帮忙看下

Twilight6 · 发表于 2020-6-26 14:21:26

xiaosi4081 发表于 2020-6-26 14:13
还有这个代码老出错：

你连 headers 都不加豆瓣是爬不到数据的

Twilight6 · 发表于 2020-6-26 14:23:35

xiaosi4081 发表于 2020-6-26 14:13
还有这个代码老出错：

你是想爬div标签的什么内容？

xiaosi4081 · 发表于 2020-6-26 14:24:48

Twilight6 发表于 2020-6-26 14:23
你是想爬div标签的什么内容？

视频资料

Twilight6 · 发表于 2020-6-26 14:29:07

xiaosi4081 发表于 2020-6-26 14:24
视频资料

你是想用正则一次性把 <div class="info">标签里的视频资料全部提取嘛？这个好像我就不怎么会了

xiaosi4081 · 发表于 2020-6-26 14:30:51

Twilight6 发表于 2020-6-26 14:29
你是想用正则一次性把标签里的视频资料全部提取嘛？这个好像我就不怎么会了

好吧

Twilight6 · 发表于 2020-6-26 14:31:43

xiaosi4081 发表于 2020-6-26 14:30
好吧

这个提取中文标题~嘿嘿

import requests

import re

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}

i = 0

while i <= 250:

url = "https://movie.douban.com/top250?start={}".format(i)

res = requests.get(url,headers=headers).text

print(re.findall(r'<span class="title">(?!&)(.+?)</span>',res))

i += 25

复制代码

账号		自动登录	找回密码
密码			立即注册