Вопрос к разработчикам программы. Для извлечения HTML кода страниц для работы программы с нужным мне сайтом (доски объявлений), я использую Мозиллу. При работе с очередной доской я обнаружил непонятное явление. Опишу их, прошу дать ответ.
Программа никак не может получить нужный мне текст через $webpage->get_body_inter_prefix_all, хотя на других досках данная команда работает прекрасно.
Например, если я выделяю часть информации на открытой странице и смотрю HTML код этой выделенной части, то этот самый код почему-то имеет отличия если я его смотрю без выделения, а просто просматривая HTML код всей страницы. Например, в одном случае кавычки одинарные, а в другом двойные. В одном случае есть <br>, а в другом его нет и аналогичные непонятки. В одном случае есть одинарный пробел, в другом - двойной и аналогичное. Чтобы яснее меня понять, дам примеры.
при просмотре HTML кода конкретного участка выделенной части страницы, вижу это:
<td class="menufooter"> <a href="/pages/contacts/" rel="nofollow">Обратная связь</a></td>
при просмотре HTML кода всей страницы, код того же участка вижу вот так:
<td class=' menufooter '> <a href='/pages/contacts/' rel='nofollow'>Обратная связь</a> <br> </td>
Кстати, я почему-то не вижу во фри версии возможности через правую кнопку мыши вставить команду $webpage->get_body_inter_prefix_all, наведя курсор мышки на нужный участок сайта. Я правильно понимаю, её там нет?
Непонятки с HTML кодом страниц парсинга
Re: Непонятки с HTML кодом страниц парсинга
По хтмл - вы берете HTML в другом браузере, DOM модели в разных браузерах будут почти всегда отличаться.
Также source и body отличаются. Source - это то что пришло с сервера. А body то что получилось в результате разбора этого source при построении DOM модели.
Насчет команды посмотрите контекстное меню надо закладкой браузера - там она должна быть.
Касательно вашей задачи - нужно смотреть какой html получается по browser>get_body (или через меню "Посмотреть текст DOM") и работать уже с ним, а не с тем что показывается в других браузерах.
Насчет free версии - ей уже более 6 лет. И ее не будем улучшать (в планах этого нет), это своего рода аналог демо-версии. Сейчас вся работа идет над Chromium версией.
Также source и body отличаются. Source - это то что пришло с сервера. А body то что получилось в результате разбора этого source при построении DOM модели.
Насчет команды посмотрите контекстное меню надо закладкой браузера - там она должна быть.
Касательно вашей задачи - нужно смотреть какой html получается по browser>get_body (или через меню "Посмотреть текст DOM") и работать уже с ним, а не с тем что показывается в других браузерах.
Насчет free версии - ей уже более 6 лет. И ее не будем улучшать (в планах этого нет), это своего рода аналог демо-версии. Сейчас вся работа идет над Chromium версией.