鱼C论坛

 找回密码
 立即注册
查看: 3241|回复: 2

[新人报道] Java爬虫 day1

[复制链接]
发表于 2022-5-9 22:03:21 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 不解春风意 于 2022-5-9 22:31 编辑

今天是学习Java爬虫的第一天,在B站上找的学习课程。只能说第一次接触Java爬虫,一脸懵逼。依赖什么的,还有日志什么的都不懂。跟着视频敲了第一个Java爬虫的代码,如下:
package test;

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

import java.io.IOException;

public class CrawlerFirst {
    public static void main(String[] args) throws Exception {
        //创建HttpClient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();

        //输入网址,发起get请求创建HttpGet对象
        HttpGet httpGet = new HttpGet("http://www.itcast.cn");

        //发起请求,返回响应,使用HttpClient对象发起请求
        CloseableHttpResponse response = httpClient.execute(httpGet);

        //解析响应,获取数据
        //判断状态码是否是200
        if (response.getStatusLine().getStatusCode() == 200) {
            HttpEntity httpEntity = response.getEntity();
            String content = EntityUtils.toString(httpEntity, "utf8");
            System.out.println(content);

        }
    }
}
只能说在这里发个帖子讲一下自己听完课的见解顺便记录自己的成长
感觉Java的爬虫很像是在模拟人类的行为,按照老师的说法,创建HttpClient对象就好像是打开了一个浏览器,创建HttpGet对象就好像是输入网址,之后就可以通过调用HttpClient对象的.execute()去对网页进行爬取。感觉懂了,好像又没懂。
由于是第一次学爬虫,在尝试过视频程序,并成功爬取后,自然是有点膨胀,由于自己是个小说迷,就尝试了一下把网址改成纵横的首页网址(http://www.zongheng.com/)准备爬一下,只能说是毫无疑问地失败了
只能说希望自己坚持下去,做一个爬小说的程序出来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-5-10 08:12:49 From FishC Mobile | 显示全部楼层
都是用三方库,就看哪些库nb
我感觉还是python的三方库n
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-5-10 13:31:44 | 显示全部楼层
wp231957 发表于 2022-5-10 08:12
都是用三方库,就看哪些库nb
我感觉还是python的三方库n


主要是同学跟我说建议我先学Java,Java学好了python上手也很容易,所以就先学的Java
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-27 11:44

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表