- 浏览: 547799 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (618)
- java (109)
- Java web (43)
- javascript (52)
- js (15)
- 闭包 (2)
- maven (8)
- 杂 (28)
- python (47)
- linux (51)
- git (18)
- (1)
- mysql (31)
- 管理 (1)
- redis (6)
- 操作系统 (12)
- 网络 (13)
- mongo (1)
- nginx (17)
- web (8)
- ffmpeg (1)
- python安装包 (0)
- php (49)
- imagemagic (1)
- eclipse (21)
- django (4)
- 学习 (1)
- 书籍 (1)
- uml (3)
- emacs (19)
- svn (2)
- netty (9)
- joomla (1)
- css (1)
- 推送 (2)
- android (6)
- memcached (2)
- docker、 (0)
- docker (7)
- go (1)
- resin (1)
- groovy (1)
- spring (1)
最新评论
-
chokee:
...
Spring3 MVC 深入研究 -
googleyufei:
很有用, 我现在打算学学Python. 这些资料的很及时.
python的几个实用网站(转的) -
hujingwei1001:
太好了找的就是它
easy explore -
xiangtui:
例子举得不错。。。学习了
java callback -
幻影桃花源:
太好了,謝謝
Spring3 MVC 深入研究
我这里讲的不是怎么使用搜索引擎,而是怎么让程序利用搜索引擎来搜集网址,这有什么用?很有用!网上动辄有人叫卖网址数据库,如发布软件网址、邮件地址、
论坛网址、行业网址,这些网址是怎么来的呢?不可能是人手工收集而来的,都是让程序利用搜索引擎取到的,如果您需要某类网址信息数据,就跟我来一起研究一
下,非常简单。
本文采用Java语言写成,以google和百度搜索引擎为对象。
我们要利用google、百度搜索引擎
的搜索规则中的两条,关键字搜索和inurl搜索。什么是inurl搜索,就是你所要搜索的网址中本身带有的关键字,比如
http://www.xxx.com/post.asp ,这个网址就含有post.asp这样的关键字,在搜索引擎中填写规则是
inurl:post.asp,这是收集网址的关键,因为很多网址本身会带有特定的信息,比如软件发布的网页网址信息中多含有
publish、submit、tuijian这样的信息,如http://www.xxx.com/publish.asp,这样的网址多是发布信息的
网页,在结合网页中本身可能含有的关键字,就可以用搜索引擎搜索出结果,然后我们利用程序将结果取回,对HTML页面进行分析,去除没有用的信息,将有用
的网址信息写入文件或者数据库,就可以给其它应用程序或者人来使用了。
第一步,用程序将搜索结果取回,先以百度为例,比如我们要搜索软件
发布的网页,关键字采用 “软件发布 版本 inurl:publish.asp",先登录百度看看,将关键字写入,然后提交,在地址栏就会看到
http://www.baidu.com/s?ie=gb2312&bs=%C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1%BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC%FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0
,中文关键字全都变成编码了,没有关系,我们在程序中直接用中文也是可以的,其中多个关键字用+号相连,去掉一些没有用的信息,我们可以把地址优化成
http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&
amp;
wd=软件发布+版本+inurl%3Apublish%2Easp&pn=0&cl=0,其中rn表示一页显示多少个结果,wd=表示
你要搜索的关键字,pn表示从第几条开始显示,这个pn将是我们程序循环取结果的变量,每20条循环一次。我们用Java写的程序来模拟这个搜索的过程,
用到的关键类为 java.net.HttpURLConnection,java.net.URL,先写一个提交搜索的class,关键代码如下:
以下是引用片段:
class Search
{
public URL url;
public HttpURLConnection http;
public java.io.InputStream urlstream;
......
for(int i=0; i++; i <100)
{
......
try {
url = new
URL("www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&
wd=软件发布+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0");
}catch(Exception ef){};
try {
http = (HttpURLConnection) url.openConnection();
http.connect();
urlstream = http.getInputStream();
}catch(Exception ef){};
java.io.BufferedReader l_reader = new java.io.
BufferedReader(new java.io.InputStreamReader(urlstream));
try {
while ((currentLine = l_reader.readLine()) != null) {
totalstring += currentLine;
}
} catch (IOException ex3) {}
....
//本次搜索的结果已经放到totalstring中了,是一些HTML代码,需要下一步进行分析了。
}
再
以google为例,稍微有些不同,google对浏览器进行了一些检测,编码也不同,URL为http:
//www.google.com/search?q=软件发布+版本+inurl:publish.asp&hl=zh-CN&lr=
&newwindow=1&start=0&sa=N&ie=UTF-8,其中编码要用ie=UTF-8,start表
示从第几条记录显示,需要注意的是google对浏览器还要检查,如果浏览器不符合它的要求,将返回错误代码,所以在模拟浏览器提交中,我们要多加一行代
码,修改关键部分要将http属性中的User-Agent设置为常用的浏览器,比如Mozilla/4.0,代码如下:
以下是引用片段:
try {
http = (HttpURLConnection) url.openConnection();
http.setRequestProperty("User-Agent", "Mozilla/4.0");
http.connect();
urlstream = http.getInputStream();
}catch(Exception ef){};
第
二步,对取回的HTML编码进行分析,取出其中的有用网址信息,并写入文件或者数据库,由于这些搜索引擎都有网页快照和相似网页等网址信息混杂在HTML
中,我们要将这些网址信息剔除掉,剔除的关键就是找出其中的规律,百度搜索引擎中的网页快照和其它没有用的的地址都含有baidu这个关键字,而
google中含有的无用网址信息含有关键字
google和cache,我们就根据这些关键字剔除无用网址信息。在Java中要对字符串进行分析必然要用到
java.util.StringTokenize这个类,用来将字符串以特定的分隔符分开,java.util.regex.Pattern和
java.util.regex.Matcher用来匹配字符串,关键代码如下:
以下是引用片段:
class CompareStr
{
public boolean comparestring(String oristring,String tostring)
{
Pattern p=null; //正则表达式
Matcher m=null; //操作的字符串
boolean b;
p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE);
m = p.matcher(tostring);
b = m.find();
return b;
}
}
class AnalyUrl
{
......
StringTokenizer token = new StringTokenizer(totalstring," <> \"");
String firstword;
CompareStrcompstr = new CompareStr();
String dsturl = null;
while (token.hasMoreTokens())
{
firstword = token.nextToken();
if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword))
{
if (firstword.length() > 7)
{
dsturl = firstword.substring(6,firstword.length() - 1);
WriteUrl(dsturl); //成功取到URL,记录到文件中
}
}
}
}
通
过以上程序,我们就可以收集到自己要的网址信息了,还可以再写另外一个应用程序,对收集到的网址信息进一步分析,取出自己需要的信息,这里就不再累赘,道
理都是一样的。最后需说明一点,google搜索引擎搜索所能返回的结果不能超过1000条,过了1000条,就直接提示“对不起, Google
为所有查询的结果数都不会超过 1000 个。”,百度搜索引擎返回的结果不能超过700多条,所以我们要搜索时尽可能多加关键字,将结果范围缩小。
发表评论
-
HTTP协议之multipart/form-data请求分析
2015-11-09 17:41 742原文地址:http://blog.csdn ... -
Servlet中的过滤器(拦截器)Filter与监听器Listener的作用和区别
2015-10-30 18:01 1025原文地址:http://blog.csdn.net/mmllk ... -
过滤器和拦截器的区别
2015-10-30 18:00 637原文地址:http://blog.163.com/hzd_lo ... -
过滤器、监听器、拦截器的区别
2015-10-30 17:59 563原文地址:http://blog.csdn.net/x_yp/ ... -
【JSP】让HTML和JSP页面不缓存的方法
2015-10-14 10:16 452原文地址:http://blog.csdn.net/juebl ... -
jsp去掉浏览器缓存
2015-10-14 09:21 597原文地址:http://bbs.csdn.net/topics ... -
pageContext对象的用法
2015-09-04 21:24 668原文地址:http://blog.csdn.net/warcr ... -
log4j日志文件乱码问题的解决方法
2015-01-06 18:11 791原文地址:http://blog.csdn.net/inkfi ... -
JEECMS 系统权限设计
2014-09-05 16:25 918原文地址:http://chinajweb.iteye.com ... -
使用servlet保存用户上传的文件到本地
2014-08-12 14:46 610原文地址:http://blog.csdn.net/shuwe ... -
Servlet 实现文件的上传与下载
2014-08-12 14:44 865原文地址:http://www.2cto.com/kf/201 ... -
android文件上传到服务器
2014-08-12 11:03 369代码非原创,fix了bug,完善的还是需要再思量: /** * ... -
常用社交网络(SNS、人人网、新浪微博)动态新闻(feed、新鲜事、好友动态)系统浅析
2014-08-05 15:09 907原文地址:http://blog.csdn.net/sunme ... -
Feed系统架构资料收集
2014-08-05 15:08 596原文地址:http://blog.csdn ... -
微博feed系统推拉模式和时间分区拉模式架构探讨
2014-08-05 14:47 385原文地址:http://www.csdn.net/articl ... -
spring 出错,Could not find acceptable representation
2014-08-03 14:41 1467原文地址:http://www.myexception.cn/ ... -
spring @ResponseBody 返回json格式有关问题
2014-08-03 14:20 612原文地址:http://www.myexception.cn/ ... -
httpclient上传文件及传参数
2014-07-27 14:02 1179原文地址:http://hyacinth.blog.sohu. ... -
在eclipse中把java工程变为web工程
2014-06-27 11:18 691项目上点鼠标右键->properties->Pro ... -
配置Tomcat直接显示目录结构和文件列表
2014-06-10 13:52 704配置Tomcat直接显示目录结构和文件列表 TomcatSe ...
相关推荐
在结合网页中本身可能含有的关键字,就可以用搜索引擎搜索出结果,然后我们利用程序将结果取回,对HTML页面进行分析,去除没有用的信息,将有用的网址信息写入文件或者数据库,就可以给其它应用程序或者人来使用了。...
通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息等。 本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序。为何要使用多线程...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
Java利用DES私钥对称加密代码实例 同上 java聊天室 2个目标文件,简单。 java模拟掷骰子2个 1个目标文件,输出演示。 java凭图游戏 一个目标文件,简单。 java求一个整数的因子 如题。 Java生成密钥的实例 1个...
Java利用DES私钥对称加密代码实例 同上 java聊天室 2个目标文件,简单。 java模拟掷骰子2个 1个目标文件,输出演示。 java凭图游戏 一个目标文件,简单。 java求一个整数的因子 如题。 Java生成密钥的实例 1个...
源程序名称: 欧阳俊曦职位搜索引擎 编译环境: Borland Delphi 2005 / WindowsXP 第三方控件库: ICS 功能: 收集国内十家人才招聘垂直网站信息,按城市,行业,职位分类检索, 导出HTML/WML文件,搜索速度4Mb/s,...
公交搜索系统是一个基于Java语言结合Lucene搜索引擎的应用程序,旨在提供用户方便快捷地查询公交线路、站点及相关信息的服务。以下是该系统的主要实现描述: 数据收集与索引构建: 使用网络爬虫或者与公交管理部门...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
目的: 实现自动化地从互联网中收集信息的工具,可以用于网站数据抓取、信息检索、搜索引擎建设等。 功能特点: 网页抓取: 爬虫程序根据指定的URL,访问网页并下载页面内容。 信息解析: 使用Jsoup等HTML解析库...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...