Непонятки с HTML кодом страниц парсинга

Все вопросы касательно бесплатной версии программы можно задать здесь
Ответить
rupriht
Сообщения: 2
Зарегистрирован: 02 сен 2019, 19:19

Непонятки с HTML кодом страниц парсинга

Сообщение rupriht » 10 сен 2019, 15:23

Вопрос к разработчикам программы. Для извлечения HTML кода страниц для работы программы с нужным мне сайтом (доски объявлений), я использую Мозиллу. При работе с очередной доской я обнаружил непонятное явление. Опишу их, прошу дать ответ.

Программа никак не может получить нужный мне текст через $webpage->get_body_inter_prefix_all, хотя на других досках данная команда работает прекрасно.

Например, если я выделяю часть информации на открытой странице и смотрю HTML код этой выделенной части, то этот самый код почему-то имеет отличия если я его смотрю без выделения, а просто просматривая HTML код всей страницы. Например, в одном случае кавычки одинарные, а в другом двойные. В одном случае есть <br>, а в другом его нет и аналогичные непонятки. В одном случае есть одинарный пробел, в другом - двойной и аналогичное. Чтобы яснее меня понять, дам примеры.

при просмотре HTML кода конкретного участка выделенной части страницы, вижу это:
<td class="menufooter"> &nbsp; &nbsp; <a href="/pages/contacts/" rel="nofollow">Обратная связь</a></td>

при просмотре HTML кода всей страницы, код того же участка вижу вот так:
<td class=' menufooter '> <a href='/pages/contacts/' rel='nofollow'>Обратная связь</a> <br> </td>


Кстати, я почему-то не вижу во фри версии возможности через правую кнопку мыши вставить команду $webpage->get_body_inter_prefix_all, наведя курсор мышки на нужный участок сайта. Я правильно понимаю, её там нет?

Аватара пользователя
bigfozzy
Site Admin
Сообщения: 3047
Зарегистрирован: 28 июл 2008, 17:24
Контактная информация:

Re: Непонятки с HTML кодом страниц парсинга

Сообщение bigfozzy » 10 сен 2019, 17:37

По хтмл - вы берете HTML в другом браузере, DOM модели в разных браузерах будут почти всегда отличаться.

Также source и body отличаются. Source - это то что пришло с сервера. А body то что получилось в результате разбора этого source при построении DOM модели.

Насчет команды посмотрите контекстное меню надо закладкой браузера - там она должна быть.

Касательно вашей задачи - нужно смотреть какой html получается по browser>get_body (или через меню "Посмотреть текст DOM") и работать уже с ним, а не с тем что показывается в других браузерах.

Насчет free версии - ей уже более 6 лет. И ее не будем улучшать (в планах этого нет), это своего рода аналог демо-версии. Сейчас вся работа идет над Chromium версией.

Аватара пользователя
bigfozzy
Site Admin
Сообщения: 3047
Зарегистрирован: 28 июл 2008, 17:24
Контактная информация:

Re: Непонятки с HTML кодом страниц парсинга

Сообщение bigfozzy » 10 сен 2019, 17:41

Про DOM и ее отличия в разных браузерах:

http://www.4stud.info/web-programming/b ... model.html

Ответить