![]() |
Модераторы: Aliance, skyboy, MoLeX, ksnk |
![]() ![]() ![]() |
|
AriX |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 311 Регистрация: 16.6.2003 Репутация: нет Всего: 19 |
Проблема такая.
Нужно скриптом перебрать кучу страничек, чтобы выдрать оттуда определенную информацию. Вообщем-то, скачать страничку, и найти в ней нужное проблем не составляет. Но! Этих страниц порядка 50 тысяч, и каждая весит ~50 Кб. Т.е. если скачивать ее полностью, уйдет много трафика. Да и по скорости это долго. Инфа, которая нужна, хранится практически в конце html-кода. Т.е. в принципе, мне нужно скачать только определенное кол-во байт в конце страницы. Проблема как раз в этом и заключается - как это можно сделать? Пробовал указывать загаловок Range при запросе страницы, но сервер все равно отдает ее всю, и возвращает код 200 OK, вместо 206 Partial content. Есть подозрение, что сервер просто по сути, не поддерживает докачку для text/html файлов, коими обычные html'ки являются. В RFC про HTTP 1.1 ничего не нашел (может плохо искал?). Заранее спасибо за любые разъяснения! |
|||
|
||||
IZ@TOP |
|
|||
![]() Панда-бир! ![]() ![]() ![]() ![]() Профиль Группа: Участник Сообщений: 4795 Регистрация: 3.2.2003 Где: Бамбуковый лес Репутация: нет Всего: 73 |
Сомневаюсь что такое вообще возможно.
Если скрипт находится на срвере хостера то зачем траффик жалеть? -------------------- Один из розовых плюшевых-всадников апокалипсиса... очень злой... Семь кругов ада для новых элементов языка Мои разрозненные мысли |
|||
|
||||
AriX |
|
||||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 311 Регистрация: 16.6.2003 Репутация: нет Всего: 19 |
IZ@TOP
![]() ![]() Но меня просто заинтересовала эта проблема. Про трафик: одна страничка весит 31 КБ в среднем... Этих страничек 46600 46600 * 31 КБ / 1024 = 1410 МБ Многовато ![]() ![]()
Похоже так оно и есть, сервак может решать, обрабатывать ли ему заголовок Range или нет. Получается, что text/html они отдают только полностью :-/ Это сообщение отредактировал(а) AriX - 31.8.2005, 09:01 |
||||
|
|||||
Mal Hack |
|
|||
![]() Мудрый... ![]() ![]() ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 9926 Регистрация: 15.2.2004 Репутация: 5 Всего: 261 |
Если ты юзаешь fsockopen, то с ним можно попробовать заюзать fseek, но не думаю, что прокатит
|
|||
|
||||
AriX |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 311 Регистрация: 16.6.2003 Репутация: нет Всего: 19 |
Mal Hack
На другом форуме примерно разобрались в чем проблема: все зависит от сервера, т.е. захочет ли он отдавать часть запрошенного документа или нет. Вот например по-дефолту Апач 1.3.33 не хочет, а Апач 2.x отдает запрошенную часть :-/ А сервер, с которого мне нужно, стоит на 1.3.33.. Так что облом похоже ![]() |
|||
|
||||
matrlx |
|
|||
Новичок Профиль Группа: Участник Сообщений: 40 Регистрация: 20.9.2005 Репутация: -1 Всего: 0 |
|
|||
|
||||
AriX |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 311 Регистрация: 16.6.2003 Репутация: нет Всего: 19 |
matrlx
Не пойму... Этот код разве поможет вытащить часть страницы? |
|||
|
||||
matrlx |
|
|||
Новичок Профиль Группа: Участник Сообщений: 40 Регистрация: 20.9.2005 Репутация: -1 Всего: 0 |
С помошью этого кодо можно вытащить всю страницу а потом уже используя шаблоны можно извлечь части страницы!
Скажи что тебе конкретно надо получить со страницы? Какую инфу? На конкретном примере той страницы, которую те надо разкурочить! ![]() |
|||
|
||||
AriX |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 311 Регистрация: 16.6.2003 Репутация: нет Всего: 19 |
matrlx
Всю страницу мне качать не нужно, это понятно как сделать. Нужна только определенная часть. Смотри начало топика. В принципе мы уже разобрались, в любом случае все зависит от настроек сервера. В моем случае, это сделать похоже не получиться. |
|||
|
||||
vpokorp |
|
||||
Шустрый ![]() Профиль Группа: Участник Сообщений: 113 Регистрация: 5.4.2006 Репутация: нет Всего: нет |
А к то подскажет - как определить - какой там Апач стоит?
|
||||
|
|||||
AriX |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 311 Регистрация: 16.6.2003 Репутация: нет Всего: 19 |
vpokorp, там нет Апача. Стоит вот этот сервер - http://0w.ru/httpd/
|
|||
|
||||
Anarki |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 326 Регистрация: 14.3.2005 Репутация: нет Всего: 11 |
Если не поддерживает HTTP RANGE, то никак.
|
|||
|
||||
![]() ![]() ![]() |
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | PHP: Сеть | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |