鱼C论坛

 找回密码
 立即注册
查看: 1099|回复: 9

我的为什么爬取不到东西。在线求大佬帮助!万分感谢!

[复制链接]
发表于 2021-9-16 05:30:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 chen1203 于 2021-9-16 05:35 编辑

我的为什么爬取不到东西,在线求大佬帮助,万分感谢!
其中日志是这样的:(协议已经被我关了)
2021-09-16 05:25:33 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-9-16 07:14:06 From FishC Mobile | 显示全部楼层
发网址及想提取的数据,如果不方便就只能自己弄
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-9-16 16:54:06 | 显示全部楼层
wp231957 发表于 2021-9-16 07:14
发网址及想提取的数据,如果不方便就只能自己弄

https://fishc.com.cn/forum-173-1.html   提取pthon交流板块的各个模块名字
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-9-16 16:55:06 | 显示全部楼层
chen1203 发表于 2021-9-16 16:54
https://fishc.com.cn/forum-173-1.html   提取pthon交流板块的各个模块名字

response.xpath("//tbody/text()").extract()
['\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n']看了一下是这种,那是什么鬼
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-9-16 16:56:03 | 显示全部楼层
chen1203 发表于 2021-9-16 16:55
response.xpath("//tbody/text()").extract()
['\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\ ...

源代码如下:import scrapy
from tutorial.items import TutorialItem
class QiuSpider(scrapy.Spider):
    name="qiu"

    allowed_domains=["fishc.com.cn"]
    urls=("https://fishc.com.cn/forum-173-1.html",)
        
            

    def parse(self,response):
        item=TutorialItem()
      
        item["content"]=response.xpath("//tbody/text()").extract()
        yield item
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-9-16 16:57:32 | 显示全部楼层
chen1203 发表于 2021-9-16 16:56
源代码如下:import scrapy
from tutorial.items import TutorialItem
class QiuSpider(scrapy.Spider) ...

import scrapy


class TutorialItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    content=scrapy.Field()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-9-16 16:58:09 | 显示全部楼层

from itemadapter import ItemAdapter


class TutorialPipeline:
    def process_item(self, item, spider):
        with open("date.text","wb",encoding="utf-8") as f:
            f.write(item["content"])
        return item
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-9-16 17:04:16 | 显示全部楼层
chen1203 发表于 2021-9-16 16:55
response.xpath("//tbody/text()").extract()
['\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\ ...
import requests
from lxml import etree

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0',
    }
url="https://fishc.com.cn/forum-173-1.html"
html = requests.get(url,headers=headers)
html.encoding="gbk"
obj=etree.HTML(html.text)
data=obj.xpath("//div[@id='subforum_173']/table/tr[1]/td[2]/dl/dt/a/text()")
print(data)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-9-16 17:06:37 | 显示全部楼层
chen1203 发表于 2021-9-16 16:56
源代码如下:import scrapy
from tutorial.items import TutorialItem
class QiuSpider(scrapy.Spider) ...

XPATH里  没有tbody
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-9-16 18:17:15 | 显示全部楼层

用scrapy项目来完成
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-10-7 08:26

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表