Модераторы: skyboy, MoLeX, Aliance, ksnk
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Парсинг одного сайт 
:(
    Опции темы
DenWPF
Дата 17.8.2011, 13:24 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1659
Регистрация: 26.9.2009

Репутация: нет
Всего: 1



Я делал не большой скрипт чтобы достать анкор. <a href=''>АНКОР</a>

Использовал http://simplehtmldom.sourceforge.net/.

Все получалось пока я не попал на большой сайт, и мне выдалась ошибка, что памяти использовано больше чем разрешено.

Кто может подсказать какой нибудь парсер который не имеет такой проблемы, и сразу покажите пример на этом сайте.

К примеру достать все ссылки.
PM MAIL   Вверх
CruorVult
Дата 17.8.2011, 13:55 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 868
Регистрация: 24.9.2008
Где: г.Киев, Украина

Репутация: 9
Всего: 28



Цитата(DenWPF @  17.8.2011,  13:24 Найти цитируемый пост)
и мне выдалась ошибка, что памяти использовано больше чем разрешено


была такая-же проблема, после чего выкинул simplehtmldom и перешел на DOMDocument

Добавлено через 2 минуты и 57 секунд
Код

$dom = new DOMDocument('1.0', 'UTF-8');        
$dom->loadHTML($HTML);
$res = $dom->getElementsByTagName("a");

PM MAIL Skype   Вверх
DenWPF
Дата 17.8.2011, 15:27 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1659
Регистрация: 26.9.2009

Репутация: нет
Всего: 1



Это я понимаю встраиватся в php на сервере?

просто я не имею доступ настройкам сервера.
PM MAIL   Вверх
CruorVult
Дата 17.8.2011, 15:32 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 868
Регистрация: 24.9.2008
Где: г.Киев, Украина

Репутация: 9
Всего: 28



DOM-расширение входит состав в пхп 5 и включено по умолчанию.

У вас что пхп не находит этого расширения?
PM MAIL Skype   Вверх
DenWPF
Дата 17.8.2011, 17:09 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1659
Регистрация: 26.9.2009

Репутация: нет
Всего: 1



Цитата

Warning: DOMDocument::loadHTML() [domdocument.loadhtml]: htmlParseEntityRef: expecting ';' in Entity, line: 63 in 

Warning: DOMDocument::loadHTML() [domdocument.loadhtml]: htmlParseEntityRef: expecting ';' in Entity, line: 63 in  

Warning: DOMDocument::loadHTML() [domdocument.loadhtml]: htmlParseEntityRef: expecting ';' in Entity, line: 63 in

Warning: DOMDocument::loadHTML() [domdocument.loadhtml]: Unexpected end tag : head in Entity, line: 63 in 

Warning: DOMDocument::loadHTML() [domdocument.loadhtml]: htmlParseStartTag: misplaced <body> tag in Entity, line: 64 in 

Warning: DOMDocument::loadHTML() [domdocument.loadhtml]: error parsing attribute name in Entity, line: 108 in  

Warning: DOMDocument::loadHTML() [domdocument.loadhtml]: ID search-form already defined in Entity, line: 29735 in  

Warning: DOMDocument::loadHTML() [domdocument.loadhtml]: ID s already defined in Entity, line: 29737 in  



Код

$urlParse = "http://www.windowsaffinity.com/?p=14721";
$dom = new DOMDocument('1.0', 'UTF-8');        
$dom->loadHTML(file_get_contents($urlParse));
$res = $dom->getElementsByTagName("a");
        vam_dump($res);
    
PM MAIL   Вверх
CruorVult
Дата 17.8.2011, 17:24 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 868
Регистрация: 24.9.2008
Где: г.Киев, Украина

Репутация: 9
Всего: 28



Ворнинги связаны с ошибки в самом хтмл. Прийдется отключить. 

PM MAIL Skype   Вверх
solenko
Дата 17.8.2011, 17:25 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1473
Регистрация: 15.1.2006
Где: Украина

Репутация: 34
Всего: 67



Эт ругется на невалидный XML.
В свое время очень спас http://framework.zend.com/manual/en/zend.dom.html -- он и легкую невалидность умеет исправлять, насколько помню, и не прожорлив.

Еще с невалидным xml умеет работать родной http://nl.php.net/manual/en/book.xmlreader.php


--------------------
Ла-ла-ла-ла
Заметьте, нет официального подтверждения, что это не просто четыре слога.
PM MAIL WWW ICQ Skype   Вверх
DenWPF
Дата 17.8.2011, 17:36 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1659
Регистрация: 26.9.2009

Репутация: нет
Всего: 1



я его как то смотрел но не разобрался что к чему.
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "PHP"
Aliance
IZ@TOP
skyboy
SamDark
MoLeX

Новичкам:

  • PHP редакторы собираются и обсуждаются здесь
  • Электронные книги по PHP, документацию можно найти здесь
  • Интерпретатор PHP, полную документацию можно скачать на PHP.NET

Важно:

  • Не брезгуйте пользоваться тегами [code=php]КОД[/code] для повышения читабельности текста/кода.
  • Перед созданием новой темы воспользуйтесь поиском и загляните в FAQ
  • Действия модераторов можно обсудить здесь

Внимание:

  • Темы "ищу скрипт", "подскажите скрипт" и т.п. будут переноситься в форум "Web-технологии"
  • Темы с именами: "Срочно", "помогите", "не знаю как делать" будут УДАЛЯТЬСЯ

Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, IZ@TOP, skyboy, SamDark, MoLeX, awers.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | PHP: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0746 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.