设为首页收藏本站

切换到窄版

鱼C论坛»论坛 › 技术交流 › Python交流 › 请问如何用PySide6爬取一个网站公开的信息？

发新帖

查看: 434|回复: 4

请问如何用PySide6爬取一个网站公开的信息？

发表于 2024-3-13 13:36:16 | 显示全部楼层 |阅读模式

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

请问如何用PySide6爬取一个网站公开的信息？

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复

使用道具举报

发表于 2024-3-13 13:36:41 | 显示全部楼层

使用PySide6进行网页爬取需要先了解一些基本概念。PySide6是一个用于构建跨平台桌面应用程序的Python库，它不直接提供网页爬取的功能。但我们可以通过结合其他库来实现。

在开始之前，确保已经安装了PySide6和requests库。如果没有安装，可以使用以下命令进行安装：

pip install PySide6 requests

下面是一个简单的示例，演示如何使用PySide6和requests库爬取一个网站的信息：

import sys
from PySide6.QtWidgets import QApplication
from PySide6.QtCore import QUrl
from PySide6.QtWebEngineWidgets import QWebEngineView
import requests

# 创建应用程序对象
app = QApplication(sys.argv)

# 创建Web视图对象
view = QWebEngineView()

# 加载网页
view.load(QUrl("https://example.com"))

# 等待页面加载完成
view.loadFinished.connect(lambda: view.page().toHtml(lambda html: parse_html(html)))

# 启动应用程序主循环
sys.exit(app.exec())

def parse_html(html):
    # 在这里可以使用BeautifulSoup等库对HTML进行解析，并提取所需的信息
    # 这里以requests库为例，直接打印网页内容
    print(html)

以上代码创建了一个PySide6应用程序，并使用QWebEngineView加载了指定的URL。当页面加载完成后，调用parse_html函数对HTML进行解析并处理。

请注意，网页爬取涉及法律和伦理问题，请确保你只爬取公开信息，并遵守网站的使用条款和政策。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发表于 2024-3-13 15:15:18 | 显示全部楼层

PySide6这个不是设计桌面端图形化界面的吗？如果要结合requests一起用还是可以的。

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

楼主| 发表于 2024-3-13 16:24:02 | 显示全部楼层

eeffve 发表于 2024-3-13 15:15
PySide6这个不是设计桌面端图形化界面的吗？如果要结合requests一起用还是可以的。

哦？老兄可有现成的？哈哈

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发表于 2024-4-16 15:07:53 | 显示全部楼层

yxxxzx123 发表于 2024-3-13 16:24
哦？老兄可有现成的？哈哈

import sys
from PySide6.QtWidgets import QApplication, QMainWindow, QVBoxLayout, QWidget, QPushButton, QLabel, QTextEdit
from PySide6.QtCore import Qt, QUrl
from PySide6.QtNetwork import QNetworkAccessManager, QNetworkRequest

class WebCrawlerApp(QMainWindow):
def __init__(self):
      super().__init__()

      self.setWindowTitle("Web Crawler")
      self.setGeometry(100, 100, 600, 400)

      # 主布局
      layout = QVBoxLayout()

      # 输入网址的文本框
      self.url_edit = QTextEdit()
      self.url_edit.setPlaceholderText("Enter URL here")
      layout.addWidget(self.url_edit)

      # 显示爬取的文本的文本框
      self.result_text = QTextEdit()
      self.result_text.setReadOnly(True)
      layout.addWidget(self.result_text)

      # 开始执行按钮
      self.start_button = QPushButton("Start")
      self.start_button.clicked.connect(self.start_crawling)
      layout.addWidget(self.start_button)

      # 退出按钮
      self.exit_button = QPushButton("Exit")
      self.exit_button.clicked.connect(self.close)
      layout.addWidget(self.exit_button)

      # 创建中心窗口部件并设置布局
      central_widget = QWidget()
      central_widget.setLayout(layout)
      self.setCentralWidget(central_widget)

      # 创建网络访问管理器
      self.network_manager = QNetworkAccessManager()
      self.network_manager.finished.connect(self.handle_response)

def start_crawling(self):
      # 获取用户输入的网址
      url = self.url_edit.toPlainText().strip()
      if not url:
         self.result_text.setPlainText("Please enter a valid URL.")
         return

      # 发起网络请求
      request = QNetworkRequest(QUrl(url))
      self.network_manager.get(request)

def handle_response(self, reply):
      if reply.error():
         error_message = f"Error: {reply.errorString()}"
         self.result_text.setPlainText(error_message)
         return

      # 读取响应内容并显示在界面上
      data = reply.readAll().data()
      self.result_text.setPlainText(data.decode("utf-8"))

def main():
app = QApplication(sys.argv)
window = WebCrawlerApp()
window.show()
sys.exit(app.exec())

if __name__ == "__main__":
main()

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发新帖

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-6-23 09:44

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表