[已解决]py

哈岁NB · 发表于 2023-7-5 17:06:42

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

大佬们，这个选择器显示有25个href，但爬取到26个，第26个是什么呀

import requests
import logging
from urllib.parse import urljoin
from pyquery import PyQuery as pq
index_url = 'https://www.ygdy8.net/html/gndy/china/list_4_{}.html'
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"
}
PAGE = 3
logging.basicConfig(level=logging.INFO,format='%(asctime)s - %(levelname)s: %(message)s')
#发起请求
def scrape_page(url):
logging.info('正在爬取：{}...'.format(url))
try:
response = requests.get(url=url,headers=header)
if response.status_code == 200:
return response.text
logging.error('出现错误，爬取代码：{}'.format(response.status_code))
except requests.RequestException:
logging.error('爬取{}出现错误'.format(url))
#拼接url并发起请求
def scrape_index(page):
url = index_url.format(page)
return scrape_page(url)
#解析详情页url
def detail_url(index_html):
details_url = []
doc = pq(index_html)
hrefs = doc('td a:nth-child(2)').items()
for href in hrefs:
urls = href.attr('href')
url = urljoin(index_url, urls)
details_url.append(url)
return details_url
def main():
for page in range(1,2):
index_html = scrape_index(page)
href = detail_url(index_html)
print(len(href))
logging.info('detail_url:{}'.format(list(href)))
if __name__ == '__main__':
main()

复制代码

这个是爬取到的url，

2023-07-05 17:01:34,079 - INFO: detail_url:['https://www.ygdy8.net/html/gndy/dyzz/20230630/63864.html', 'https://www.ygdy8.net/html/gndy/dyzz/20230630/63863.html', 'https://www.ygdy8.net/html/gndy/jddy/20230629/63862.html', 'https://www.ygdy8.net/html/gndy/jddy/20230629/63861.html', 'https://www.ygdy8.net/html/gndy/jddy/20230629/63860.html', 'https://www.ygdy8.net/html/gndy/jddy/20230626/63851.html', 'https://www.ygdy8.net/html/gndy/jddy/20230626/63850.html', 'https://www.ygdy8.net/html/gndy/dyzz/20230625/63845.html', 'https://www.ygdy8.net/html/gndy/jddy/20230624/63839.html', 'https://www.ygdy8.net/html/gndy/jddy/20230624/63838.html', 'https://www.ygdy8.net/html/gndy/jddy/20230624/63837.html', 'https://www.ygdy8.net/html/gndy/jddy/20230623/63835.html', 'https://www.ygdy8.net/html/gndy/jddy/20230623/63834.html', 'https://www.ygdy8.net/html/gndy/jddy/20230620/63827.html', 'https://www.ygdy8.net/html/gndy/jddy/20230618/63822.html', 'https://www.ygdy8.net/html/gndy/jddy/20230618/63821.html', 'https://www.ygdy8.net/html/gndy/dyzz/20230618/63820.html', 'https://www.ygdy8.net/html/gndy/dyzz/20230616/63815.html', 'https://www.ygdy8.net/html/gndy/dyzz/20230615/63813.html', 'https://www.ygdy8.net/html/gndy/jddy/20230614/63812.html', 'https://www.ygdy8.net/html/gndy/jddy/20230614/63809.html', 'https://www.ygdy8.net/html/gndy/jddy/20230611/63801.html', 'https://www.ygdy8.net/html/gndy/jddy/20230611/63800.html', 'https://www.ygdy8.net/html/gndy/dyzz/20230610/63799.html', 'https://www.ygdy8.net/html/gndy/dyzz/20230609/63797.html', 'https://www.ygdy8.netlist_4_3.html']

复制代码

最佳答案

月排行榜 / 总排行榜

陶远航

2023-7-5 17:18:13

哈岁NB 发表于 2023-7-5 17:14
想请问一下，为什么源网页只有25个，他为什么爬到26个

我刚才已经解释过了，是因为你的选择器td a:nth-child(2)匹配了页面底部的一个分页链接，而不是电影详情链接。你可以看一下源网页的源代码，就会发现有一个这样的链接：

<td align="right"><a href="list_4_3.html">下一页</a></td>

复制代码

这个链接的href属性是list_4_3.html，所以你的代码会把它拼接成’[删除中文url]https://www.ygdy8.netlist_4_3.html[/url]’，这就是你爬取到的第26个url。但这个url并不是你想要的电影详情url，所以你应该改用更精确的选择器，比如td.b a:nth-child(2)或者td.b a.ulink，来只匹配电影详情链接。这样就可以避免爬取到多余的url了。

跳转到最佳答案楼层

陶远航 · 发表于 2023-7-5 17:06:57

本帖最后由陶远航于 2023-7-5 17:11 编辑

你的选择器显示有25个href，但爬取到26个，是因为你的代码中有一个错误。你应该使用link.attrib['href']或者pq(link).attr('href')来获取每个链接的href属性，而不是link.attr('href')。这样就可以避免出现AttributeError: ‘HtmlElement’ object has no attribute 'attr’的错误。

另外，你的代码中也有一个多余的url，就是最后一个’https://www.ygdy8.netlist_4_3.html’。这个url是因为你的选择器td a:nth-child(2)匹配了页面底部的一个分页链接，而不是电影详情链接。你可以改用更精确的选择器，比如td.b a:nth-child(2)或者td.b a.ulink，来只匹配电影详情链接。

希望这些信息对你有帮助。如果你还有其他问题，欢迎继续提问。

sfqxx · 发表于 2023-7-5 17:09:56

根据你提供的输出信息，爬取到的第26个URL 是 https://www.ygdy8.netlist_4_3.html(无法打开的页面)。这个URL并不是一个有效的链接，它缺少了一部分内容。在代码中，拼接URL的逻辑是通过 `urljoin(index_url, urls)`来完成的。但是在这里，`index_url`变量并没有正确地传入到函数中，所以导致URL拼接出错。

要解决这个问题，你需要修改 `detail_url`函数中的 `urljoin(index_url, urls)`这一行代码。将其修改为 `urljoin(url, urls)`即可。这样做将会使用正确的`index_url`来完成URL的拼接。

修改后的代码如下：

import requests

import logging

from urllib.parse import urljoin

from pyquery import PyQuery as pq

index_url = 'https://www.ygdy8.net/html/gndy/china/list_4_{}.html'

header = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"

}

PAGE = 3

logging.basicConfig(level=logging.INFO,format='%(asctime)s - %(levelname)s: %(message)s')

#发起请求

def scrape_page(url):

logging.info('正在爬取：{}...'.format(url))

try:

      response = requests.get(url=url,headers=header)

      if response.status_code == 200:

         return response.text

      logging.error('出现错误，爬取代码：{}'.format(response.status_code))

except requests.RequestException:

      logging.error('爬取{}出现错误'.format(url))

#拼接url并发起请求

def scrape_index(page):

url = index_url.format(page)

return scrape_page(url)

#解析详情页url

def detail_url(index_html):

details_url = []

doc = pq(index_html)

hrefs = doc('td a:nth-child(2)').items()

for href in hrefs:

      urls = href.attr('href')

      url = urljoin(url, urls)  # 修改这一行代码

      details_url.append(url)

return details_url

def main():

for page in range(1,2):

      index_html = scrape_index(page)

      href = detail_url(index_html)

      print(len(href))

      logging.info('detail_url:{}'.format(list(href)))

if __name__ == '__main__':

main()
复制代码

希望这次能够解决你的问题。如果还有其他疑问，请随时提问。

哈岁NB · 发表于 2023-7-5 17:12:53

sfqxx 发表于 2023-7-5 17:09
根据你提供的输出信息，爬取到的第26个URL 是 https://www.ygdy8.netlist_4_3.html(无法打开的页面)。这 ...

这样它报错了

哈岁NB · 发表于 2023-7-5 17:14:05

陶远航发表于 2023-7-5 17:06
你的选择器显示有25个href，但爬取到26个，是因为你的代码中有一个错误。你应该使用link.attrib['href']或 ...

想请问一下，为什么源网页只有25个，他为什么爬到26个

sfqxx · 发表于 2023-7-5 17:15:04

哈岁NB 发表于 2023-7-5 17:12
这样它报错了

试试

import requests

import logging

from urllib.parse import urljoin

from pyquery import PyQuery as pq

index_url = 'https://www.ygdy8.net/html/gndy/china/list_4_{}.html'

header = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"

}

PAGE = 3

logging.basicConfig(level=logging.INFO,format='%(asctime)s - %(levelname)s: %(message)s')

#发起请求

def scrape_page(url):

logging.info('正在爬取：{}...'.format(url))

try:

      response = requests.get(url=url,headers=header)

      if response.status_code == 200:

         return response.text

      logging.error('出现错误，爬取代码：{}'.format(response.status_code))

except requests.RequestException:

      logging.error('爬取{}出现错误'.format(url))

#拼接url并发起请求

def scrape_index(page):

url = index_url.format(page)

return scrape_page(url)

#解析详情页url

def detail_url(index_html):

details_url = []

doc = pq(index_html)

hrefs = doc('td a:nth-child(2)').items()

for href in hrefs:

      urls = href.attr('href')

      url = urljoin(url, urls)  # 修改这一行代码

      details_url.append(url)

return details_url

def main():

for page in range(1,2):

      index_html = scrape_index(page)

      href = detail_url(index_html)

      print(len(href))

      logging.info('detail_url:{}'.format(list(href)))

if __name__ == '__main__':

main()
复制代码

陶远航 · 发表于 2023-7-5 17:18:13

哈岁NB 发表于 2023-7-5 17:14
想请问一下，为什么源网页只有25个，他为什么爬到26个

我刚才已经解释过了，是因为你的选择器td a:nth-child(2)匹配了页面底部的一个分页链接，而不是电影详情链接。你可以看一下源网页的源代码，就会发现有一个这样的链接：

<td align="right"><a href="list_4_3.html">下一页</a></td>

复制代码

这个链接的href属性是list_4_3.html，所以你的代码会把它拼接成’[删除中文url]https://www.ygdy8.netlist_4_3.html[/url]’，这就是你爬取到的第26个url。但这个url并不是你想要的电影详情url，所以你应该改用更精确的选择器，比如td.b a:nth-child(2)或者td.b a.ulink，来只匹配电影详情链接。这样就可以避免爬取到多余的url了。

哈岁NB · 发表于 2023-7-5 17:18:33

sfqxx 发表于 2023-7-5 17:15
试试

还是报错，而且就算不拼接，爬到的也是26个

哈岁NB · 发表于 2023-7-5 17:19:15

陶远航发表于 2023-7-5 17:18
我刚才已经解释过了，是因为你的选择器td a:nth-child(2)匹配了页面底部的一个分页链接，而不是电影详 ...

明白了明白了，感谢感谢

哈岁NB · 发表于 2023-7-5 17:19:42

sfqxx 发表于 2023-7-5 17:15
试试

解决了，感谢感谢

sfqxx · 发表于 2023-7-5 17:20:43

哈岁NB 发表于 2023-7-5 17:19
解决了，感谢感谢

啊！

sfqxx · 发表于 2023-7-5 17:22:16

你只爬25次不就行了？？？？

def main():
for page in range(1, 26):
index_html = scrape_index(page)
href = detail_url(index_html)
print(len(href))
logging.info('detail_url:{}'.format(list(href)))

复制代码

哈岁NB · 发表于 2023-7-5 17:23:03

sfqxx 发表于 2023-7-5 17:20
啊！

那个css选择器多匹配了一个，改一下就好了，还是非常感谢您

sfqxx · 发表于 2023-7-5 17:24:01

哈岁NB 发表于 2023-7-5 17:23
那个css选择器多匹配了一个，改一下就好了，还是非常感谢您

给这个帖子评分呗

https://fishc.com.cn/thread-229812-1-1.html

求5鱼币5荣誉3贡献

哈岁NB · 发表于 2023-7-5 17:26:05

sfqxx 发表于 2023-7-5 17:24
给这个帖子评分呗

https://fishc.com.cn/thread-229812-1-1.html

好的

sfqxx · 发表于 2023-7-5 17:27:32

哈岁NB 发表于 2023-7-5 17:26
好的

谢谢

账号		自动登录	找回密码
密码			立即注册