博客
关于我
Java爬虫.HttpClient
阅读量:320 次
发布时间:2019-03-04

本文共 621 字,大约阅读时间需要 2 分钟。

1.HttpClient

网络爬虫就是用程序帮助我们访问网络上的资源。我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用相同的HTTP协议访问网页。

这里我们使用Java的HTTP协议客户端HttpClient这个技术,来实现抓取网页数据。

1.1 GET请求

访问csdn官网,请求url地址
https://www.csdn.net/

1.2 带参数的Get请求

在慕课网中搜索学习视频,地址为:
https://www.icourse163.org/search.htm?search=java#/
Ctrl+N 查找类

1.3 POST请求

使用POST请求访问CSDN官网
*仅一处变动:
创建HttpPost对象,设置url访问地址
HttpPost httpPost = new HttpPost(uriBuilder.build());

1.4 POST含参请求

在慕课网中使用POST含参请求搜索学习视频,地址为:
https://www.icourse163.org/search
url地址没有参数,参数search=java放在表单中进行提交

1.5 连接池

如果每次请求都要创建 HttpClient ,会有频繁创建和销毁的问题,可以使用连接池来解决。

1.6 请求参数

有时候因为网络,或者目标服务器的原因,请求需要更长的时间才能完成,我们需要自定义相关时间

转载地址:http://yqhq.baihongyu.com/

你可能感兴趣的文章
NLog类库使用探索——详解配置
查看>>
NLP 基于kashgari和BERT实现中文命名实体识别(NER)
查看>>
NLP 模型中的偏差和公平性检测
查看>>
Vue3.0 性能提升主要是通过哪几方面体现的?
查看>>
NLP 项目:维基百科文章爬虫和分类【01】 - 语料库阅读器
查看>>
NLP_什么是统计语言模型_条件概率的链式法则_n元统计语言模型_马尔科夫链_数据稀疏(出现了词库中没有的词)_统计语言模型的平滑策略---人工智能工作笔记0035
查看>>
NLP、CV 很难入门?IBM 数据科学家带你梳理
查看>>
NLP三大特征抽取器:CNN、RNN与Transformer全面解析
查看>>
NLP入门(六)pyltp的介绍与使用
查看>>
NLP学习笔记:使用 Python 进行NLTK
查看>>
NLP度量指标BELU真的完美么?
查看>>
NLP的不同研究领域和最新发展的概述
查看>>
NLP的神经网络训练的新模式
查看>>
NLP采用Bert进行简单文本情感分类
查看>>
NLP问答系统:使用 Deepset SQUAD 和 SQuAD v2 度量评估
查看>>
NLP项目:维基百科文章爬虫和分类【02】 - 语料库转换管道
查看>>
NLP:从头开始的文本矢量化方法
查看>>
NLP:使用 SciKit Learn 的文本矢量化方法
查看>>
NLTK - 停用词下载
查看>>
nmap 使用总结
查看>>