|
发表于 2023-7-6 11:00:30
|
显示全部楼层
爬取网站信息时,如果页面的结构复杂或者内容呈现形式不规律,正则表达式可能会变得复杂且难以维护。在这种情况下,可以考虑使用解析库,如BeautifulSoup或lxml,来处理HTML页面。
以下是一个使用BeautifulSoup来解析网页并提取演员信息的示例代码:
- python
- import requests
- from bs4 import BeautifulSoup
- # 发送GET请求获取页面内容
- url = 'https://www.ygdy8.net/html/gndy/jddy/20230629/63860.html'
- response = requests.get(url)
- html = response.content
- # 创建BeautifulSoup对象
- soup = BeautifulSoup(html, 'html.parser')
- # 使用CSS选择器提取演员信息
- actor_elements = soup.select('div.co_content8 ul table:nth-child(2) tr:nth-child(n+2) td:nth-child(2) a')
- actors = [actor.text for actor in actor_elements]
- # 输出演员信息
- for actor in actors:
- print(actor)
复制代码
在上述示例中,我们使用了requests库发送GET请求获取网页内容,并使用BeautifulSoup解析HTML页面。通过使用CSS选择器div.co_content8 ul table:nth-child(2) tr:nth-child(n+2) td:nth-child(2) a,我们选择到了演员信息所在的元素。然后,我们遍历选取到的元素,提取出演员的文本内容,并将其存储在actors列表中。
请注意,示例代码中的CSS选择器仅适用于给定的详情页,如果网站结构不稳定或不一致,您可能需要根据不同页面的结构进行相应的调整。
希望这个示例能够帮助到您!如果还有其他疑问,请随时提问。 |
|