不解春风意 发表于 2022-5-9 22:03:21

Java爬虫 day1

本帖最后由 不解春风意 于 2022-5-9 22:31 编辑

今天是学习Java爬虫的第一天,在B站上找的学习课程。只能说第一次接触Java爬虫,一脸懵逼。依赖什么的,还有日志什么的都不懂。跟着视频敲了第一个Java爬虫的代码,如下:
package test;

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

import java.io.IOException;

public class CrawlerFirst {
    public static void main(String[] args) throws Exception {
      //创建HttpClient对象
      CloseableHttpClient httpClient = HttpClients.createDefault();

      //输入网址,发起get请求创建HttpGet对象
      HttpGet httpGet = new HttpGet("http://www.itcast.cn");

      //发起请求,返回响应,使用HttpClient对象发起请求
      CloseableHttpResponse response = httpClient.execute(httpGet);

      //解析响应,获取数据
      //判断状态码是否是200
      if (response.getStatusLine().getStatusCode() == 200) {
            HttpEntity httpEntity = response.getEntity();
            String content = EntityUtils.toString(httpEntity, "utf8");
            System.out.println(content);

      }
    }
}

只能说在这里发个帖子讲一下自己听完课的见解顺便记录自己的成长
感觉Java的爬虫很像是在模拟人类的行为,按照老师的说法,创建HttpClient对象就好像是打开了一个浏览器,创建HttpGet对象就好像是输入网址,之后就可以通过调用HttpClient对象的.execute()去对网页进行爬取。感觉懂了,好像又没懂。
由于是第一次学爬虫,在尝试过视频程序,并成功爬取后,自然是有点膨胀,由于自己是个小说迷,就尝试了一下把网址改成纵横的首页网址(http://www.zongheng.com/)准备爬一下,只能说是毫无疑问地失败了
只能说希望自己坚持下去,做一个爬小说的程序出来{:5_95:}

wp231957 发表于 2022-5-10 08:12:49

都是用三方库,就看哪些库nb
我感觉还是python的三方库n

不解春风意 发表于 2022-5-10 13:31:44

wp231957 发表于 2022-5-10 08:12
都是用三方库,就看哪些库nb
我感觉还是python的三方库n

主要是同学跟我说建议我先学Java,Java学好了python上手也很容易,所以就先学的Java{:5_109:}
页: [1]
查看完整版本: Java爬虫 day1