Не понятная кодировака $webpage->get_source()

Если вы обнаружили какие либо ошибки, недочеты и неудобства или другие незачеты в программе напишите нам об этом на этом форуме - мы бум исправлять
Ответить
OlegGraf
Сообщения: 76
Зарегистрирован: 04 ноя 2011, 01:01

Не понятная кодировака $webpage->get_source()

Сообщение OlegGraf » 07 окт 2013, 14:35

В юникод версии хумана функцией $webpage->get_source() возвращается результат в непонятной кодировке.
Это не win и не utf при этом $webpage->get_document_body(true) возвращает все в utf.
Проверьте пожалуйста

Аватара пользователя
bigfozzy
Site Admin
Сообщения: 3047
Зарегистрирован: 28 июл 2008, 17:24
Контактная информация:

Re: Не понятная кодировака $webpage->get_source()

Сообщение bigfozzy » 07 окт 2013, 14:47

Принято

OlegGraf
Сообщения: 76
Зарегистрирован: 04 ноя 2011, 01:01

Re: Не понятная кодировака $webpage->get_source()

Сообщение OlegGraf » 09 окт 2013, 04:25

Проверил еще
$webpage->get_source(); сайт UTF или WIN кодировке, функция возвращает данные в непонятной кодировке
$webpage->load_web_page($url); сайт UTF-8 кодировке, функция возвращает данные в непонятной кодировке, сайт в WIN кодировке возвращает данные верно в UTF-8
также проверьте $browser->send_get_query
Получается что сейчас нет возможности получить тело html без сгенерированного контента например яваскриптами.
Приходится выполнять трюк:

Код: Выделить всё

$browser->navigate($url);
$enk=$webpage->get_encoding();
$html = file_get_contents($url);
if($enk!='utf-8') $html=iconv($enk, 'UTF-8//IGNORE',$html);
но это двойная загрузка страницы
Было бы еще здорово если бы была еще такая функция $webpage->get_body_source(); возвращающая html тела body без генерации
Проблема в том что сайты в разных кодировках которые определить средствами php очень проблематично. Хуман пока показывает кодировку верно. Но вот получить чистый html, без загрузки в браузер, для ускорения процесса, в UTF-8 кодировке нельзя.
Прошу побыстрее решить проблему, очень нужно

Аватара пользователя
bigfozzy
Site Admin
Сообщения: 3047
Зарегистрирован: 28 июл 2008, 17:24
Контактная информация:

Re: Не понятная кодировака $webpage->get_source()

Сообщение bigfozzy » 09 окт 2013, 10:26

Спасибо, постараемся к началу следующей недели билд сделать.

Аватара пользователя
GERAsimov
Сообщения: 47
Зарегистрирован: 09 апр 2009, 15:38

Re: Не понятная кодировака $webpage->get_source()

Сообщение GERAsimov » 04 дек 2013, 00:20

Присоединясь к просьбе!

Так как, кроме $webpage->load_web_page($url) невозможно получить контент без преобразований браузером (

Браузер почему-то убирает лишние пробелы из текст, что не дает делать клик_бай_текст(

OlegGraf
Сообщения: 76
Зарегистрирован: 04 ноя 2011, 01:01

Re: Не понятная кодировака $webpage->get_source()

Сообщение OlegGraf » 28 апр 2014, 14:15

Здравствуйте
С момента создания данного поста по ошибке и вашего обещания ее поправить прошло почти пол года.
Но никаких исправлений нет.
С этим багом не возможно корректно парсить некоторые сайты в инете.
Пожалуйста ответьте, планируется ли вообще исправление данной ошибки, или Хуман так и останется с данным багом?
Если планируется то на когда?

Ответить