爬取网站信息时,如果页面的结构复杂或者内容呈现形式不规律,正则表达式可能会变得复杂且难以维护。在这种情况下,可以考虑使用解析库,如BeautifulSoup或lxml,来处理HTML页面。
以下是一个使用BeautifulSoup来解析网页并提取演员信息的示例代码:pythonimport requestsfrom bs4 import BeautifulSoup# 发送GET请求获取页面内容url = 'https://www.ygdy8.net/html/gndy/jddy/20230629/63860.html'response = requests.get(url)html = response.content# 创建BeautifulSoup对象soup = BeautifulSoup(html, 'html.parser')# 使用CSS选择器提取演员信息actor_elements = soup.select('div.co_content8 ul table:nth-child(2) tr:nth-child(n+2) td:nth-child(2) a')actors = [actor.text for actor in actor_elements]# 输出演员信息for actor in actors: print(actor)
在上述示例中,我们使用了requests库发送GET请求获取网页内容,并使用BeautifulSoup解析HTML页面。通过使用CSS选择器div.co_content8 ul table:nth-child(2) tr:nth-child(n+2) td:nth-child(2) a,我们选择到了演员信息所在的元素。然后,我们遍历选取到的元素,提取出演员的文本内容,并将其存储在actors列表中。
请注意,示例代码中的CSS选择器仅适用于给定的详情页,如果网站结构不稳定或不一致,您可能需要根据不同页面的结构进行相应的调整。
希望这个示例能够帮助到您!如果还有其他疑问,请随时提问。 |