哈岁NB 发表于 2023-7-5 16:38:40

爬虫定位标签

请问大佬们,这个每个table标签里有两个href属性,css选择器怎样写才能只定位每个table标签里的第二个href那个标签呢
就是图片里标黄的那个,url是https://www.ygdy8.net/html/gndy/china/list_4_1.html

陶远航 发表于 2023-7-5 16:38:49

您可以使用CSS选择器中的伪类选择器:nth-child()来定位每个table标签里的第二个href标签。对于您提供的URL中的页面,可以使用如下的CSS选择器定位到每个table标签中的第二个href标签:

css
table a:nth-child(2)


这样的选择器将选择每个table标签中的第二个a标签,即图片中标黄的那个链接标签。请注意,CSS选择器中的:nth-child()使用的是基于1的索引,而不是基于0的索引。

您可以将此CSS选择器应用于爬虫框架(如BeautifulSoup或Scrapy)中的相应代码,以获取您所需的标签。

编程追风梦 发表于 2023-7-5 16:39:33

如果你想要使用CSS选择器定位每个table标签中的第二个href标签,可以使用类似于":nth-child"或":nth-of-type"伪类来选择目标元素。然而,在这种情况下,table标签内的href元素可能不直接作为其子元素存在,而是位于其他子元素的内部。

对于指定URL(https://www.ygdy8.net/html/gndy/china/list_4_1.html)上的网页结构,我们可以尝试使用以下CSS选择器来定位每个table标签中的第二个href元素:

table a:nth-of-type(2)

以上选择器将以 table 元素作为起始点,选择其中的第二个 a 元素。请注意,这可能因具体页面结构而有所变化,如果页面结构与预期不同,可能需要进行调整。

但请注意,网站的结构可能会变化,或者网站服务商可能会采取防止爬虫的措施。在编写爬虫程序时,请确保你的行为遵守相关法律,并尊重网站的使用条款、robots.txt 文件和服务器的访问限制。

哈岁NB 发表于 2023-7-5 16:44:49

陶远航 发表于 2023-7-5 16:38
您可以使用CSS选择器中的伪类选择器:nth-child()来定位每个table标签里的第二个href标签。对于您提供的URL ...

好的,感谢感谢

哈岁NB 发表于 2023-7-5 16:45:20

编程追风梦 发表于 2023-7-5 16:39
如果你想要使用CSS选择器定位每个table标签中的第二个href标签,可以使用类似于":nth-child"或":nth-of-typ ...

好的,感谢感谢
页: [1]
查看完整版本: 爬虫定位标签