2008-04-12
得到特定URL网页的源代码
关键字: url source code
public class WebSpider {
public static void main(String[] args) throws Exception {
String urlString = "http://lggege.javaeye.com/blog/173840";
URL url = new URL(urlString);
Object contentObj = url.getContent();
if (contentObj instanceof InputStream) {
new InputStreamReader((InputStream) contentObj);
BufferedReader br = new BufferedReader(new InputStreamReader((InputStream) contentObj));
StringBuffer sb = new StringBuffer();
while (br.ready()) {
sb.append(br.readLine());
}
// 这步还需要处理编码问题.
System.out.println(new String(sb.toString().getBytes(), "UTF-8"));
}
}
}
上面是代码.
在这步:
Object contentObj = url.getContent();
是真正向URL服务器请求得到数据,也就是页面源代码.
发表评论
- 浏览: 6460 次
- 性别:

- 来自: 上海

- 详细资料
搜索本博客
我的相册
IndexCardGenerator
共 13 张
共 13 张
最近加入圈子
最新评论
-
RAP[1] RAP开发环境的安装
Eclipse RAP的客户端渲染是基于qooxdoo,一个很优秀的开源java ...
-- by Quake Wang -
惊艳!!! Swt 上的Ribbon.
dev.java.net上早有ribbon的实现了,不过是swing的:http ...
-- by diggywang -
.net终于被java同化了
支持Java
-- by love2008 -
Groovy的Eclipse插件
多谢,在这里找到插件了
-- by wdlfellow

![lggege的博客: [203] lG 槛~ 迈过去! 用户头像](http://www.javaeye.com/upload/logo/user/18674/d58959b8-54ec-376e-b9f2-5d3a36beaa2f.jpg?1206674671)




评论排行榜