java怎么写爬虫？java写爬虫简单示例

阳光 2022-03-07 15:07:20 java常见问答 8282

java写爬虫 java怎么写爬虫

爬虫一般指网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。我们利用java技术就可以将爬虫开发出来，那java怎么写爬虫?下面来我们就用实例给大家讲解一下。

本项目中需要用到两个第三方jar包，分别为 jsoup 和 commons-io。

jsoup的作用是为了解析网页， commons-io 是为了把数据保存到本地。

1.爬取贴吧

第一步，打开eclipse，新建一个java项目，名字就叫做 pachong：

java怎么写爬虫？java写爬虫简单示例.jpg

然后，新建一个类，作为我们程序的入口。

这个作为入口类，里面就写一个main方法即可。

public class StartUp
{
    public static void main(String[] args)
    {}
}

第二步，导入我们的依赖，两个jar包：

右键jar包，Build path , add to Build path

接着，我们试着搜索一下动漫吧的数据：

https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5

public class StartUp
{
    public static void main(String[] args)
    {
        String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
        Connection connect = Jsoup.connect(url);
        System.out.println(connect);
    }
}

如果能够成功打印出来链接，说明我们的连接测试是成功的!

然后，我们调用connect的get方法，获取链接到的数据：

Document document = connect.get();

这边需要抛出一个异常，而且是强制性的，因为有可能会获取失败。这边我们直接抛出去，不去捕获。

public class StartUp
{
    public static void main(String[] args) throws IOException
    {
        String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
        Connection connect = Jsoup.connect(url);
        System.out.println(connect);
        Document document = connect.get();
        System.out.println(document);
    }
}

打印出来的结果：

可见，document对象装的就是一个完整HTML页面。

在这里，我们想要拿到的第一个数据，就是所有帖子的标题：

我们发现，每一个标题都是一个a连接，class为j_th_tit 。

下一步我们就考虑获取所有class为 j_th_tit 的元素。

我们发现，document对象给我们提供了 getElementsByClass 的方法，顾名思义，就是获取class为 XXX 的元素。

Elements titles = document.getElementsByClass("j_th_tit");

接着，遍历titles，打印出每一个标题的名称：

for (int i = 0; i < titles.size(); i++)
{
    System.out.println(titles.get(i)
        .attr("title"));
}

当前代码：

import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class StartUp
{
    public static void main(String[] args) throws IOException
    {
        String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
        Connection connect = Jsoup.connect(url);
        Document document = connect.get();
        Elements titles = document.getElementsByClass("j_th_tit");
        for (int i = 0; i < titles.size(); i++)
        {
            System.out.println(titles.get(i)
                .attr("title"));
        }
    }
}

这样就完成了java爬虫的过程，其实Java爬虫就是抓取信息，我们在开发爬虫的时候，了解爬虫原理开发起来也很简单的!最后大家如果想要了解更多java实例知识，敬请关注奇Q工具网。

java怎么写爬虫？java写爬虫简单示例

热门文章

最近发表

标签列表