В юникод версии хумана функцией $webpage->get_source() возвращается результат в непонятной кодировке.
Это не win и не utf при этом $webpage->get_document_body(true) возвращает все в utf.
Проверьте пожалуйста
Не понятная кодировака $webpage->get_source()
Re: Не понятная кодировака $webpage->get_source()
Проверил еще
$webpage->get_source(); сайт UTF или WIN кодировке, функция возвращает данные в непонятной кодировке
$webpage->load_web_page($url); сайт UTF-8 кодировке, функция возвращает данные в непонятной кодировке, сайт в WIN кодировке возвращает данные верно в UTF-8
также проверьте $browser->send_get_query
Получается что сейчас нет возможности получить тело html без сгенерированного контента например яваскриптами.
Приходится выполнять трюк:
но это двойная загрузка страницы
Было бы еще здорово если бы была еще такая функция $webpage->get_body_source(); возвращающая html тела body без генерации
Проблема в том что сайты в разных кодировках которые определить средствами php очень проблематично. Хуман пока показывает кодировку верно. Но вот получить чистый html, без загрузки в браузер, для ускорения процесса, в UTF-8 кодировке нельзя.
Прошу побыстрее решить проблему, очень нужно
$webpage->get_source(); сайт UTF или WIN кодировке, функция возвращает данные в непонятной кодировке
$webpage->load_web_page($url); сайт UTF-8 кодировке, функция возвращает данные в непонятной кодировке, сайт в WIN кодировке возвращает данные верно в UTF-8
также проверьте $browser->send_get_query
Получается что сейчас нет возможности получить тело html без сгенерированного контента например яваскриптами.
Приходится выполнять трюк:
Код: Выделить всё
$browser->navigate($url);
$enk=$webpage->get_encoding();
$html = file_get_contents($url);
if($enk!='utf-8') $html=iconv($enk, 'UTF-8//IGNORE',$html);
Было бы еще здорово если бы была еще такая функция $webpage->get_body_source(); возвращающая html тела body без генерации
Проблема в том что сайты в разных кодировках которые определить средствами php очень проблематично. Хуман пока показывает кодировку верно. Но вот получить чистый html, без загрузки в браузер, для ускорения процесса, в UTF-8 кодировке нельзя.
Прошу побыстрее решить проблему, очень нужно
Re: Не понятная кодировака $webpage->get_source()
Спасибо, постараемся к началу следующей недели билд сделать.
Re: Не понятная кодировака $webpage->get_source()
Присоединясь к просьбе!
Так как, кроме $webpage->load_web_page($url) невозможно получить контент без преобразований браузером (
Браузер почему-то убирает лишние пробелы из текст, что не дает делать клик_бай_текст(
Так как, кроме $webpage->load_web_page($url) невозможно получить контент без преобразований браузером (
Браузер почему-то убирает лишние пробелы из текст, что не дает делать клик_бай_текст(
Re: Не понятная кодировака $webpage->get_source()
Здравствуйте
С момента создания данного поста по ошибке и вашего обещания ее поправить прошло почти пол года.
Но никаких исправлений нет.
С этим багом не возможно корректно парсить некоторые сайты в инете.
Пожалуйста ответьте, планируется ли вообще исправление данной ошибки, или Хуман так и останется с данным багом?
Если планируется то на когда?
С момента создания данного поста по ошибке и вашего обещания ее поправить прошло почти пол года.
Но никаких исправлений нет.
С этим багом не возможно корректно парсить некоторые сайты в инете.
Пожалуйста ответьте, планируется ли вообще исправление данной ошибки, или Хуман так и останется с данным багом?
Если планируется то на когда?