Страница 1 из 1

Как организовать парсинг

Добавлено: 02 апр 2009, 14:57
dedvitalik
Нуждаюсь в совете как организовать кусок кода - нужно взять с вебстраницы УРЛы сайтов, начало куска кода:

// navigate to victim
$browser->navigate($uri);
// wait on browser
$browser->wait_for(90,1);

$findtext= $webpage->get_body();

а дальше надо осуществить поиск урлов на старнице, которые начинаются на "www."

тоесть ищем "www.", и все что после него до первого пробела записываем новой строкой в файл, причем на первом найденном УРЛе скрипт не должен останавливаться, а записывать в файл все найденные.

Добавлено: 03 апр 2009, 12:16
igvard
ищем в тексте нужные нам индексы по префиксам

Код: Выделить всё

$ind1 = strpos($findtext,"www.");
$ind3= strpos($findtext," ",$ind1);

$url = substr($findtext,$ind1,$ind3-$ind1); 
это мы нашли один url в тексте, если надо все то, организуем цикл примерно так :

Код: Выделить всё

$ind1=0;
$ind3=0;
$url ="";

while($ind1!==FALSE)
{
    $ind1 = strpos($findtext,"www.",$ind3);
    $ind3= strpos($findtext," ",$ind1);

    // получаем всё в одну строку
    $url = $url.substr($findtext,$ind1,$ind3-$ind1)."\n"; 

}
где то примерно так))