java获取网页代码实现 java获取网页源代码

Java截取网页源代码,高分送上!

test.html:

成都创新互联专注于文成网站建设服务及定制,我们拥有丰富的企业做网站经验。 热诚为您提供文成营销型网站建设,文成网站制作、文成网页设计、文成网站官网定制、重庆小程序开发服务,打造文成网络公司原创品牌,更为您提供文成网站排名全网营销落地服务。

!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" ""

html

head

meta http-equiv="Content-Type" content="text/html; charset=GB18030"

titleInsert title here/title

/head

body

div class="neirong"

《疯狂android讲义》

br /

第1章 android应用与开发环境1

br /

1.1 android的发展和搜首历史2

br /

1.1.1 android的发展和简介2

br /

1.1.2 android平台架构及特性3

br /

....................

/div

div class="read-more"more1/div

div class="read-more"more2/div

哪漏腔/body

/html

java:

// 获取网页内容

URL url = Test1.class.getResource("test.html");

StringBuffer sbf = new StringBuffer();

try {

URLConnection uc = url.openConnection();

uc.connect();

InputStream in = uc.getInputStream();

BufferedReader br = new BufferedReader(new InputStreamReader(in));

String temp = null;

while ((temp = br.readLine()) != null) {

sbf.append(temp);

}

br.close();

in.close();

System.out.println(sbf.toString());

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

System.out.println("解析。。。"李衫);

// 解析网页内容

String p1 = "div class=\"neirong\"(.*?)(?=/div)";

Pattern p = Pattern点抗 pile(p1);

Matcher matcher = p.matcher(sbf.toString());

if (matcher.find()) {

String innerDiv = matcher.group(1);

String[] strs = innerDiv.split("br\\s*/");

for (String str : strs) {

System.out.println(str);

}

}

java获取html

Java访问网络url,获取网页的html代码

方式一:

一是使用URL类的openStream()方法:

openStream()方法与制定的URL建立连接并返回InputStream类的对象,以从这一连接中读取数据;

openStream()方法只丛渣裤能读取网络资源。

二是使用URL类的openConnection()方法:

openConnection()方法会创建一个URLConnection类的对象,此对象在本地机和URL指定的远程节点建立一条HTTP协议的数据通道,可进行双向数据传渗简输。类URLConnection提供了很多设置和获取连接参数的方法,最常用到的是getInputStream()和getOutputStream()方法。

openConnection()方法既能读取又能发送数据。

列如:

public static void main(String args[]) throws Exception {

try {

//输入url路径梁袭

URL url = new URL("url路径"); InputStream in =url.openStream(); InputStreamReader isr = new InputStreamReader(in); BufferedReader bufr = new BufferedReader(isr); String str; while ((str = bufr.readLine()) != null) { System.out.println(str); } bufr.close(); isr.close(); in.close(); } catch (Exception e) { e.printStackTrace(); } }

如何java写/实现网络爬虫抓取网页

网络爬虫是一个自动提取网页的扒扰程序,它为搜索春仿旦引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

java实现网页源码获取的步骤:

(1)新建URL对象,表示要访问的网址。如:url=new URL("");

(2)建立HTTP连接,返回连大卜接对象urlConnection对象。如:urlConnection = (HttpURLConnection)url.openConnection();

(3)获取相应HTTP 状态码。如responsecode=urlConnection.getResponseCode();

(4)如果HTTP 状态码为200,表示成功。从urlConnection对象获取输入流对象来获取请求的网页源代码。


分享名称:java获取网页代码实现 java获取网页源代码
文章来源:http://hbruida.cn/article/dsppsci.html