该文属于drupal-crawler的开发文档.类及函数的文档一个个上来。
webcrawler_core.module
有5个类及几个常用的采集函数,其中三个是并发下载类,两个是HTML分析类,目前3000行代码。HTML分析类独立写出来是为了节省性能,下载到的tidy等HTML分析类都太耗内存和CPU了,bluehost用不起,而且我只为采集用,其它功能不想用到。
该类下载地址:请到主文章 drupal-crawler发布,基于drupal的采集CMS,一起淘美金吧,alpha 中下载模块,找到其中的./webcrawler_core.module.(该类可用于任何的PHP程序,不一定要在该CMS中使用)
开发的源码来源于我早期的一段代码,当然,大改了:http://www.trackself.com/archives/463.html
drupal-crawler这个CMS最重要的核心就在于PHP并发下载,是在webcrawler_core.module文件中实现的
下面的一个示例函数并发下载图片.php curl 并发下载图片函数示例,html的类就叫downHTML了,并发下载文件就是multidown….
require_once "./webcrawler_core.module";
downloadimages();
function downloadimages(){
//下载图片的测试
$t=array(
‘http://photo3.jpg’,
‘http://photo1.jpg’,
‘http://photo5.jpg’,
);
$x=new downImage;
$x->downeachtime=10;//每图下载10s,可以不写
$x->input=$t;
$x->download();
print_r($x->output);
$x=NULL;
print ”
“;
}