Поделитесь парсером

Сбор и анализ всего что можно собрать из сети.
Ответить
Аватара пользователя
duxabilii
Сообщения: 29
Зарегистрирован: 04 фев 2011, 13:59
Контактная информация:

Поделитесь парсером

Сообщение duxabilii » 06 фев 2011, 23:44

Необходимо написать несколько парсеров интернет-магазинов. Может кому не жалко сбросить готовые парсеры для ознакомления с принципами работы. Заранее спасибо.
Великие вещи для великих,
Пропасти для глубоких,
Нежности и дрожь, ужасы для чутких,
А, в общем, всё редкое для редких.

Аватара пользователя
Support
Site Admin
Сообщения: 1000
Зарегистрирован: 10 апр 2009, 17:45
Контактная информация:

Re: Поделитесь парсером

Сообщение Support » 07 фев 2011, 15:05

Почитайте про эту функцию http://www.humanemulator.net/objects/WE ... prefix.php и напишите в аську суппорта, если готового парсера не найдётся. Сделать свой совершенно не сложно.

Аватара пользователя
duxabilii
Сообщения: 29
Зарегистрирован: 04 фев 2011, 13:59
Контактная информация:

Re: Поделитесь парсером

Сообщение duxabilii » 08 фев 2011, 23:25

Что-то нихрена не получается.
Кто сможет помочь. К примеру, нужно слить страницу http://www.mobitrade.ua/pckomp/hdd/HP.html
Необходимо снять: Название, цену, короткое описание и полное описание.
Заранее благодарен
Великие вещи для великих,
Пропасти для глубоких,
Нежности и дрожь, ужасы для чутких,
А, в общем, всё редкое для редких.

satih
Сообщения: 269
Зарегистрирован: 31 мар 2010, 23:44

Re: Поделитесь парсером

Сообщение satih » 09 фев 2011, 04:10

тут хуман нипричем, нужен обычный парсер, который можно сделать и на чистом пхп и на чем угодно. задача собственно сграбить страницу (т.е. получить ее хтмл код) и спарсить из кода нужные значения (т.е. найти в этом хтмл коде нужные места) .. имхо, посмотри в сторону content downloader, делает именно то что требуется, парсит определенные куски сайта без того чтоб понимать что либо в коде. если все же с пхп интересно, почитай про регулярные выражения, 1-2 дня на чтение, сможешь легко парсить нужные куски страниц

Аватара пользователя
Support
Site Admin
Сообщения: 1000
Зарегистрирован: 10 апр 2009, 17:45
Контактная информация:

Re: Поделитесь парсером

Сообщение Support » 09 фев 2011, 13:10

В качестве примера могу предложить вот такой код:

Код: Выделить всё

<?php

$xhe_host ="127.0.0.1:7010";

// The following code is required to properly run XWeb Human Emulator
require("../Templates/xweb_human_emulator.php");

$browser->navigate("http://www.mobitrade.ua/pckomp/hdd/HP.html");
$browser->wait_for(30,1);

$urls = $anchor->get_all_urls_by_inner_text("Купить",$separator="<br>");
$urls = explode ("<br>",$urls);

for($i=0;$i<count($urls);$i++)
{
$browser->navigate($urls[$i],$use_cache=true);
$browser->wait_for(30,1);
sleep(1);
$title = $webpage->get_body_inter_prefix('<A class=zoomer title="','href="javascript',$as_html=true);
$title = substr($title, 0, strlen($title)-1);

$path = "C:\\".$title.".jpg";
$image->save_to_file_by_name('sale_image', $path);
echo $title."<br>";
echo $webpage->get_body_inter_prefix('<DIV class=title','</DIV></DIV></DIV>',$as_html=true);
echo "<br><br>";
}

// Quit
$app->quit();
?>
Цену решил не собирать, оставив вам простор для творчества )
Если останутся непонятные моменты, пишите.

Ответить