Как организовать парсинг

Сбор и анализ всего что можно собрать из сети.
Ответить
dedvitalik
Сообщения: 1
Зарегистрирован: 02 апр 2009, 14:51

Как организовать парсинг

Сообщение dedvitalik » 02 апр 2009, 14:57

Нуждаюсь в совете как организовать кусок кода - нужно взять с вебстраницы УРЛы сайтов, начало куска кода:

// navigate to victim
$browser->navigate($uri);
// wait on browser
$browser->wait_for(90,1);

$findtext= $webpage->get_body();

а дальше надо осуществить поиск урлов на старнице, которые начинаются на "www."

тоесть ищем "www.", и все что после него до первого пробела записываем новой строкой в файл, причем на первом найденном УРЛе скрипт не должен останавливаться, а записывать в файл все найденные.

Аватара пользователя
igvard
Site Admin
Сообщения: 241
Зарегистрирован: 31 июл 2008, 22:53

Сообщение igvard » 03 апр 2009, 12:16

ищем в тексте нужные нам индексы по префиксам

Код: Выделить всё

$ind1 = strpos($findtext,"www.");
$ind3= strpos($findtext," ",$ind1);

$url = substr($findtext,$ind1,$ind3-$ind1); 
это мы нашли один url в тексте, если надо все то, организуем цикл примерно так :

Код: Выделить всё

$ind1=0;
$ind3=0;
$url ="";

while($ind1!==FALSE)
{
    $ind1 = strpos($findtext,"www.",$ind3);
    $ind3= strpos($findtext," ",$ind1);

    // получаем всё в одну строку
    $url = $url.substr($findtext,$ind1,$ind3-$ind1)."\n"; 

}
где то примерно так))

Ответить