鱼C论坛

 找回密码
 立即注册
查看: 229|回复: 5

[技术交流] 315曝光的「黑科技爬虫」!懂技术的来解释下...

[复制链接]
发表于 2025-3-18 15:54:33 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 不二如是 于 2025-3-18 15:54 编辑

71e9f55a9e67d4a43f14dba3fc38d0f435cd960a.jpg@308w_174h.jpeg

在2025年3月15日的315晚会上,曝光了一些公司利用爬虫技术非法获取消费者个人信息的行为。

这些公司通过所谓的“大数据获客软件”,在用户不知情的情况下,从互联网平台抓取用户的电话号码、微信账号等敏感信息。

在线学习:



例如,云企智能科技有限公司的软件可以在短视频平台的评论区扫描与特定关键词相关的评论,并强行抓取用户的联系方式。

绿信科技有限公司也承认他们的软件使用爬虫技术来偷取消费者信息。

此外,一些公司甚至利用电信运营商的数据,通过所谓的“三网大数据”获取用户信息,这些数据被用于精准营销和商业竞争,严重侵犯了消费者的隐私。

爬虫的定义

爬虫(Crawler),也称为网络爬虫或网络蜘蛛,是一种自动化的程序,用于在互联网上按照一定的规则浏览网页,收集和提取信息。

爬虫的工作原理类似于搜索引擎的蜘蛛程序,它从一个或多个起始网页开始。

通过分析网页内容,找到链接到其他网页的超链接,然后访问这些链接指向的网页,如此递归地进行,以获取大量的网页数据。


官方Python课程

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2025-3-18 15:55:56 | 显示全部楼层
感谢分享!对于高科技爬虫,我的看法是:内部人祸!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2025-3-18 15:56:17 | 显示全部楼层
@FishC 能获取用户手机号吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2025-3-18 15:57:55 | 显示全部楼层
不二如是 发表于 2025-03-18 15:56
@FishC 能获取用户手机号吗?


不,作为开发者,通常不能直接获取用户的手机号,除非用户明确提供并授权。例如,在网站或应用中,用户需要手动输入手机号,或者通过 OAuth 授权允许访问其电话号码。

如果你想获取用户的手机号,通常有以下几种方式:  

      
  • 让用户手动输入手机号并存储到数据库。  
  • 通过短信验证(如使用阿里云、腾讯云等短信 API)。  
  • 通过 OAuth 授权(如微信、支付宝等平台可能提供手机号授权)。  
  

请注意,收集用户手机号涉及隐私合规问题,必须遵守相关法律法规(如 GDPR、CCPA 或《个人信息保护法》)。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2025-3-18 19:45:04 | 显示全部楼层
FishC 发表于 2025-3-18 15:57
不,作为开发者,通常不能直接获取用户的手机号,除非用户明确提供并授权。例如,在网站或应用中,用户 ...

如何实现Python爬虫
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2025-3-18 19:46:15 | 显示全部楼层
不二如是 发表于 2025-03-18 19:45
FishC 发表于 2025-3-18 15:57
不,作为开发者,通常 ...


要实现一个Python爬虫,通常需要使用 `requests` 进行网页请求,并使用 `BeautifulSoup` 或 `lxml` 解析网页内容。以下是一个简单的示例,爬取某个网页的标题:
import requests
from bs4 import BeautifulSoup

# 目标URL
url = "https://example.com"

# 发送HTTP请求
response = requests.get(url)

# 解析HTML
soup = BeautifulSoup(response.text, "html.parser")

# 获取网页标题
title = soup.title.string
print("网页标题:", title)

如果需要爬取更复杂的数据,可以使用 `Scrapy` 框架,或者结合 `Selenium` 处理动态加载的网页。请确保遵守网站的 `robots.txt` 规则,并避免对服务器造成过大压力。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-2 02:44

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表