鱼C论坛

 找回密码
 立即注册
查看: 939|回复: 10

[已解决]正则

[复制链接]
发表于 2020-6-26 13:56:32 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
有没有正则教程? 正则老是弄不好
最佳答案
2020-6-26 14:00:14

https://docs.microsoft.com/en-us ... redirectedfrom=MSDN

哈哈这个微软官方的手册,英文的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-26 14:00:14 | 显示全部楼层    本楼为最佳答案   

https://docs.microsoft.com/en-us ... redirectedfrom=MSDN

哈哈这个微软官方的手册,英文的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-26 14:01:08 | 显示全部楼层
Twilight6 发表于 2020-6-26 14:00
https://docs.microsoft.com/en-us/dotnet/standard/base-types/regular-expression-language-quick-refe ...


我用翻译试试看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-26 14:03:22 | 显示全部楼层


对了 菜鸟这也有一些正则教程:

https://www.runoob.com/regexp/regexp-tutorial.html
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-26 14:13:34 | 显示全部楼层
本帖最后由 xiaosi4081 于 2020-6-26 14:17 编辑
Twilight6 发表于 2020-6-26 14:03
对了 菜鸟这也有一些正则教程:

https://www.runoob.com/regexp/regexp-tutorial.html


还有这个代码老出错:
import requests
import re

i = 0
while i <= 250:
    url = "https://movie.douban.com/top250?start={}".format(i)
    res = requests.get(url).text
    print(re.findall(r'<div class="info">(.*?)</div>',res))
    i += 25

帮忙看下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-26 14:21:26 | 显示全部楼层
xiaosi4081 发表于 2020-6-26 14:13
还有这个代码老出错:

你连 headers 都不加 豆瓣是爬不到数据的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-26 14:23:35 | 显示全部楼层
xiaosi4081 发表于 2020-6-26 14:13
还有这个代码老出错:

你是想爬div标签的什么内容?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-26 14:24:48 | 显示全部楼层
Twilight6 发表于 2020-6-26 14:23
你是想爬div标签的什么内容?

视频资料
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-26 14:29:07 | 显示全部楼层

你是想用正则一次性把 <div class="info">标签里的视频资料全部提取嘛?这个好像我就不怎么会了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-26 14:30:51 | 显示全部楼层
Twilight6 发表于 2020-6-26 14:29
你是想用正则一次性把 标签里的视频资料全部提取嘛?这个好像我就不怎么会了

好吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-26 14:31:43 | 显示全部楼层


这个提取中文标题~嘿嘿
import requests
import re

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}

i = 0
while i <= 250:
    url = "https://movie.douban.com/top250?start={}".format(i)
    res = requests.get(url,headers=headers).text
    print(re.findall(r'<span class="title">(?!&)(.+?)</span>',res))
    i += 25
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-20 05:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表