python爬虫

python小学士 · 发表于 2020-2-1 12:44:22

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

#这是我写的代码

import requests
import re
url = "http://lab1.xseclab.com/xss2_0d557e6d2a4ac08b749b61473a075be1/index.php"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
html = requests.get(url,headers = headers).text
book_name = re.compile('\d{4}.\d{5}.\d{4}.*?\d{4}.\d{5}.*?=')
result = re.findall(book_name,html)
print(result)

复制代码

#这是我要爬取的内容，声明：每次这个页面刷新公式都会发生变化，所以上面我写的只能抓取它的格式，而不能抓取准确数字。
#麻烦大佬们，帮忙看一下，我是不是那个地方出错了

zltzlt · 发表于 2020-2-1 12:54:43

由于它的位数不是一定的，所以将正则表达式改一改就可以了：

import requests
import re
url = "http://lab1.xseclab.com/xss2_0d557e6d2a4ac08b749b61473a075be1/index.php"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
"(KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
html = requests.get(url, headers=headers).text
book_name = re.compile(r'\d+?.\d+?.\d+?.*?\d+?.\d+?.*?=')
result = re.findall(book_name, html)
print(result)

复制代码

python小学士 · 发表于 2020-2-1 12:57:39

zltzlt 发表于 2020-2-1 12:54
由于它的位数不是一定的，所以将正则表达式改一改就可以了：

这些我都试过，但是，我的意思是当我匹配的内容和网页显示的内容一致，因为网页每次刷新公式都会发生变化，代码每次运行结果也都不一样。所以我想问一下，如果可以准确抓取呢段代码

python小学士 · 发表于 2020-2-1 12:58:45

zltzlt 发表于 2020-2-1 12:54
由于它的位数不是一定的，所以将正则表达式改一改就可以了：

我设置{}里面的重复次数是为了让他位数先统一，

zltzlt · 发表于 2020-2-1 12:59:20

python小学士发表于 2020-2-1 12:57
这些我都试过，但是，我的意思是当我匹配的内容和网页显示的内容一致，因为网页每次刷新公式都会发生变 ...

加个 while 循环就可以了：

import requests
import re
result = []
while not result:
url = "http://lab1.xseclab.com/xss2_0d557e6d2a4ac08b749b61473a075be1/index.php"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
"(KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
html = requests.get(url, headers=headers).text
book_name = re.compile(r'\d{4}.\d{5}.\d{4}.*?\d{4}.\d{5}.*?=')
result = re.findall(book_name, html)
print(result)

复制代码

python小学士 · 发表于 2020-2-1 13:01:53

zltzlt 发表于 2020-2-1 12:59
加个 while 循环就可以了：

不行，执行结果和网页不一样，可以复制一下url打开一下网址然后刷新一下就明白了，

让这个题愁死了

zltzlt · 发表于 2020-2-1 13:02:58

python小学士发表于 2020-2-1 13:01
不行，执行结果和网页不一样，可以复制一下url打开一下网址然后刷新一下就明白了， ...

执行结果和网页不一样？你到底想实现什么功能

python小学士 · 发表于 2020-2-1 13:04:15

zltzlt 发表于 2020-2-1 13:02
执行结果和网页不一样？你到底想实现什么功能

现在网页内容不是9461*89444+1581*(9461+89444)=这个公式嘛，我执行的结果是其他公式，我给你截图一下

zltzlt · 发表于 2020-2-1 13:04:44

python小学士发表于 2020-2-1 13:04
现在网页内容不是9461*89444+1581*(9461+89444)=这个公式嘛，我执行的结果是其他公式，我给你截图一下

它每次刷新都会变啊

zltzlt · 发表于 2020-2-1 13:05:53

python小学士发表于 2020-2-1 13:04
现在网页内容不是9461*89444+1581*(9461+89444)=这个公式嘛，我执行的结果是其他公式，我给你截图一下

你想让浏览器和 Python 显示相同？

python小学士 · 发表于 2020-2-1 13:06:24

zltzlt 发表于 2020-2-1 13:02
执行结果和网页不一样？你到底想实现什么功能

这是我执行了4次的结果，跟网页的内容都不是一致的。。。。

python小学士 · 发表于 2020-2-1 13:07:05

zltzlt 发表于 2020-2-1 13:05
你想让浏览器和 Python 显示相同？

对对对

zltzlt · 发表于 2020-2-1 13:07:55

python小学士发表于 2020-2-1 13:06
这是我执行了4次的结果，跟网页的内容都不是一致的。。。。

你想要实现这样的功能？不可能，你审查元素看到的内容并非网页的源代码。

zltzlt · 发表于 2020-2-1 13:08:12

python小学士发表于 2020-2-1 13:07
对对对

不可能，别想了

python小学士 · 发表于 2020-2-1 13:09:10

zltzlt 发表于 2020-2-1 13:08
不可能，别想了

zltzlt · 发表于 2020-2-1 13:10:15

python小学士发表于 2020-2-1 13:09

目前能实现的功能只是抓取指定位数的数据而已

python小学士 · 发表于 2020-2-1 13:12:05

zltzlt 发表于 2020-2-1 13:10
目前能实现的功能只是抓取指定位数的数据而已

这个题，是我们学长给我们发的一个题

当场去世。。。

python小学士 · 发表于 2020-2-1 13:13:17

zltzlt 发表于 2020-2-1 13:10
目前能实现的功能只是抓取指定位数的数据而已

还是要谢谢版主，

过年好，哈哈哈

python小学士 · 发表于 2020-2-1 13:54:00

zltzlt 发表于 2020-2-1 13:10
目前能实现的功能只是抓取指定位数的数据而已

版主版主版主

import urllib.request
import re
url = "http://lab1.xseclab.com/xss2_0d557e6d2a4ac08b749b61473a075be1/index.php"
response = urllib.request.urlopen(url)
html = response.read().decode("utf-8")
print(html)
#imts = requests.get(url,headers = headers).text
result = re.findall('\d+.\d+.\d+.\(\d+.\d+\)\=',html,re.S)
print(result)

复制代码

用 urllib.request为啥就可以

Stubborn · 发表于 2020-2-1 14:09:10

Cookie: PHPSESSID=e8d7427a94d34b7139022842d33620e1
Host: lab1.xseclab.com
Origin: http://lab1.xseclab.com
Referer: http://lab1.xseclab.com/xss2_0d557e6d2a4ac08b749b61473a075be1/index.php
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36
v: 1000

复制代码

Content-Type: application/x-www-form-urlencoded
Cookie: PHPSESSID=e8d7427a94d34b7139022842d33620e1
Host: lab1.xseclab.com
Origin: http://lab1.xseclab.com
Referer: http://lab1.xseclab.com/xss2_0d557e6d2a4ac08b749b61473a075be1/index.php
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36
v: 10000

复制代码

每次采集肯定是不一样的

账号		自动登录	找回密码
密码			立即注册