鱼C论坛

 找回密码
 立即注册
查看: 3615|回复: 6

[已解决]爬取内容为空如何解决

[复制链接]
发表于 2022-12-16 16:35:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import requests
  2. from lxml import etree

  3. currenturl = "https://www.htfc.com/main/a/20221216/80146505.shtml"

  4. #网页爬虫
  5. headers = {
  6. 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
  7. 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  8. 'Accept-Language':'en-US,en;q=0.5',
  9. 'Accept-Encoding':'gzip',
  10. 'DNT':'1',
  11. 'Connection':'close'
  12. }

  13. r = requests.get(currenturl, headers=headers)
  14. r.encoding = 'gbk'
  15. html = etree.HTML(r.text)#etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。
  16. #print(html)
  17. title = html.xpath('//div[id="details"]')
  18. print(title)
复制代码


代码如上,想爬取标题和文本,应该如何写?
最佳答案
2022-12-16 18:21:41
  1. import requests
  2. from lxml import etree

  3. currenturl = "https://www.htfc.com/main/a/20221216/80146505.shtml"

  4. #网页爬虫
  5. headers = {
  6. 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
  7. 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  8. 'Accept-Language':'en-US,en;q=0.5',
  9. 'Accept-Encoding':'gzip',
  10. 'DNT':'1',
  11. 'Connection':'close'
  12. }

  13. r = requests.get(currenturl, headers=headers)
  14. r.encoding = 'utf-8'
  15. html = etree.HTML(r.text)#etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。
  16. #print(html)
  17. title = html.xpath('//div[@id="details"]/h3/text()')
  18. print("标题:")
  19. print(title[0])
  20. print()
  21. print("正文:")
  22. content = html.xpath('//div[@class="wz_content"]//span/text()')
  23. print('\n'.join(content))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-12-16 18:21:41 | 显示全部楼层    本楼为最佳答案   
  1. import requests
  2. from lxml import etree

  3. currenturl = "https://www.htfc.com/main/a/20221216/80146505.shtml"

  4. #网页爬虫
  5. headers = {
  6. 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
  7. 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  8. 'Accept-Language':'en-US,en;q=0.5',
  9. 'Accept-Encoding':'gzip',
  10. 'DNT':'1',
  11. 'Connection':'close'
  12. }

  13. r = requests.get(currenturl, headers=headers)
  14. r.encoding = 'utf-8'
  15. html = etree.HTML(r.text)#etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。
  16. #print(html)
  17. title = html.xpath('//div[@id="details"]/h3/text()')
  18. print("标题:")
  19. print(title[0])
  20. print()
  21. print("正文:")
  22. content = html.xpath('//div[@class="wz_content"]//span/text()')
  23. print('\n'.join(content))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2022-12-19 14:02:43 | 显示全部楼层

大佬你好,这个网址我用自动化谷歌驱动获取的,再用如上方法,最终“正文”的内容为空是为什么啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-12-19 14:03:31 | 显示全部楼层
  1. def get_huatai():

  2.     s = requests.Session()
  3.    
  4.     fb = webdriver.FirefoxProfile.DEFAULT_PREFERENCES
  5.     # op = webdriver.FirefoxOptions()
  6.     # op.set_preference({'user-data-dir':''})
  7.     c = webdriver.ChromeOptions()
  8.     c.add_argument('--user-data-dir=D:/AutomationProfile')
  9.     # c.add_argument('--headless')
  10.     # c.add_argument(f'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36')
  11.     driver = webdriver.Chrome()
  12.    
  13.     driver.get('https://www.htfc.com/main/yjzx/yjbg/index.shtml')  
  14.    
  15.     time.sleep(3)

  16.     driver.find_element(By.XPATH, '//input[@id="title"]').send_keys('原油')#这里直接指向id="title"的同级input就行。
  17.     time.sleep(3)
  18.     driver.find_element(By.XPATH, '//a[text()="查询"]').click()
  19.     time.sleep(3)
  20.     driver.find_element(By.XPATH, '//div[@id="articlelist"]/ul/li[1]/a').click()   
  21.    
  22.     # 获取全部标签页
  23.     window = driver.window_handles
  24.     # 将激活标签页设置为最新的一项(按自己业务改)
  25.     driver.switch_to.window(window.pop())
  26.     #获取当前页面的url   
  27.     currenturl = driver.current_url
  28.     driver.quit()
  29.     #driver.close() #关闭当前页面
  30.     time.sleep(3)
  31.     print(currenturl)


  32.     #currenturl = "https://www.htfc.com/main/a/20221216/80146505.shtml"
  33.    
  34.     #网页爬虫
  35.     headers = {
  36.     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
  37.     'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  38.     'Accept-Language':'en-US,en;q=0.5',
  39.     'Accept-Encoding':'gzip',
  40.     'DNT':'1',
  41.     'Connection':'close'
  42.     }
  43.    
  44.     r = requests.get(currenturl, headers=headers)
  45.     r.encoding = 'utf-8'#z注意这里
  46.     html = etree.HTML(r.text)#etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。
  47.     #print(html)
  48.     title = html.xpath('//div[@id="details"]/h3/text()')#注意这里,注意@
  49.     print("标题:")
  50.     print(title[0])
  51.     print()
  52.     print("正文:")
  53.     content = html.xpath('//div[@class="wz_content"]//span/text()')
  54.    
  55.     print('\n'.join(content))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-12-19 14:49:47 | 显示全部楼层


我下载一个浏览器驱动调试看看
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-12-19 15:19:18 | 显示全部楼层
本帖最后由 isdkz 于 2022-12-19 15:21 编辑


我调试了一下,别的页面标签又有点不大一样,我改了一下代码,你再看看

  1. def get_huatai():

  2.     s = requests.Session()
  3.    
  4.     fb = webdriver.FirefoxProfile.DEFAULT_PREFERENCES
  5.     # op = webdriver.FirefoxOptions()
  6.     # op.set_preference({'user-data-dir':''})
  7.     c = webdriver.ChromeOptions()
  8.     c.add_argument('--user-data-dir=D:/AutomationProfile')
  9.     # c.add_argument('--headless')
  10.     # c.add_argument(f'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36')
  11.     driver = webdriver.Chrome()
  12.    
  13.     driver.get('https://www.htfc.com/main/yjzx/yjbg/index.shtml')  
  14.    
  15.     time.sleep(3)

  16.     driver.find_element(By.XPATH, '//input[@id="title"]').send_keys('原油')#这里直接指向id="title"的同级input就行。
  17.     time.sleep(3)
  18.     driver.find_element(By.XPATH, '//a[text()="查询"]').click()
  19.     time.sleep(3)
  20.     driver.find_element(By.XPATH, '//div[@id="articlelist"]/ul/li[1]/a').click()   
  21.    
  22.     # 获取全部标签页
  23.     window = driver.window_handles
  24.     # 将激活标签页设置为最新的一项(按自己业务改)
  25.     driver.switch_to.window(window.pop())
  26.     #获取当前页面的url   
  27.     currenturl = driver.current_url
  28.     driver.quit()
  29.     #driver.close() #关闭当前页面
  30.     time.sleep(3)
  31.     print(currenturl)


  32.     #currenturl = "https://www.htfc.com/main/a/20221216/80146505.shtml"
  33.    
  34.     #网页爬虫
  35.     headers = {
  36.     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
  37.     'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  38.     'Accept-Language':'en-US,en;q=0.5',
  39.     'Accept-Encoding':'gzip',
  40.     'DNT':'1',
  41.     'Connection':'close'
  42.     }
  43.    
  44.     r = requests.get(currenturl, headers=headers)
  45.     r.encoding = 'utf-8'#z注意这里
  46.     html = etree.HTML(r.text)#etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。
  47.     #print(html)
  48.     title = html.xpath('//div[@id="details"]/h3/text()')#注意这里,注意@
  49.     print("标题:")
  50.     print(title[0])
  51.     print()
  52.     print("正文:")
  53.     content = html.xpath('//div[@class="wz_content"]//text()')                                        # 改了这里
  54.    
  55.     print('\n'.join(content))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2022-12-19 15:57:17 | 显示全部楼层
isdkz 发表于 2022-12-19 15:19
我调试了一下,别的页面标签又有点不大一样,我改了一下代码,你再看看

ok
非常感谢!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-25 13:14

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表