![]() |
Модераторы: skyboy, MoLeX, Aliance, ksnk |
![]() ![]() ![]() |
|
kshyms |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 303 Регистрация: 30.8.2006 Где: Душанбе Репутация: нет Всего: 0 |
Цель это заполнение каталога за короткое время при минимуме трудозатрат.
Идея такая в цикле допустим от 1 до 10 а в перспективе и до 1000 вызываем сайты и пихаем в базу, читаем определяем заголовок и ключевые слова и также в базу пихаем. Этот робот думаю будет небольшим по объему. Что такое индексация до сих пор не понял. Я думаю это просто запись в базу как есть. Вопрос как проверить файл на пустоту? Как игнорировать переходы на другой сайт, которые выставлены на некоторых сайтах, что бы цикл не нарушать? У меня еще будут несколько вопросов по мере проведения исследований
начало уже есть Это сообщение отредактировал(а) kshyms - 13.12.2007, 12:16 |
|||
|
||||
bars80080 |
|
|||
![]() прапор творюет ![]() ![]() ![]() ![]() Награды: 1 Профиль Группа: Завсегдатай Сообщений: 12022 Регистрация: 5.12.2007 Где: Königsberg Репутация: 2 Всего: 315 |
если пустота самой переменной содержащей ссылку, то empty
если файл, то filesize и иже с ним функции http://php.ru/manual/index.functions.html |
|||
|
||||
Feldmarschall |
|
|||
Новичок ![]() ![]() ![]() ![]() Профиль Группа: Участник Сообщений: 2641 Регистрация: 11.12.2007 Репутация: -2 Всего: 32 |
В протоколе НТТР нет никаких файлов.
|
|||
|
||||
krundetz |
|
|||
![]() Вечный странник ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1400 Регистрация: 14.6.2007 Где: НН(Сормово) Репутация: 1 Всего: 69 |
ИМХО индексация необходима для создания поискового образа документа, тоесть некой абстракции которая в самом примитивном представление является перечнем слов найденных в документе их весу сопоставленных с неким идентификатором для повышения быстроты поиска. |
|||
|
||||
numerovan |
|
|||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 549 Регистрация: 1.12.2007 Репутация: нет Всего: 2 |
что такое ИМХО ?
мне тоже интересно как сделать поискового робота ![]() |
|||
|
||||
bars80080 |
|
|||
![]() прапор творюет ![]() ![]() ![]() ![]() Награды: 1 Профиль Группа: Завсегдатай Сообщений: 12022 Регистрация: 5.12.2007 Где: Königsberg Репутация: 2 Всего: 315 |
имею мнение хрен оспоришь
вставляют где не попадя |
|||
|
||||
kshyms |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 303 Регистрация: 30.8.2006 Где: Душанбе Репутация: нет Всего: 0 |
Чем интересны известные поисковики? Тем, что в их базах есть все. Как они работают ? Поиск новых сайтов у них организован по ссылкам на другие сайты. Есть у них анализаторы, кроме всего прочего.
Добавлено через 4 минуты и 19 секунд
Это Ваша точка зрения. Я не волшебник и не все так быстро и еще к тому же я только учусь... |
|||
|
||||
kshyms |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 303 Регистрация: 30.8.2006 Где: Душанбе Репутация: нет Всего: 0 |
Думаю это тоже понадобиться на всякий случай, а случаи бывают разные. Можно ли это обработать прочитать и запихнуть в дальнейшем в title заголовок и ключевые слова? Это сообщение отредактировал(а) kshyms - 14.12.2007, 13:00 |
|||
|
||||
kshyms |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 303 Регистрация: 30.8.2006 Где: Душанбе Репутация: нет Всего: 0 |
//если в загруженном и прочтенном файле есть переход на другой сайт тогда переход на следующую итерацию
Это сообщение отредактировал(а) kshyms - 14.12.2007, 13:04 |
|||
|
||||
coyl |
|
|||
![]() Шустрый ![]() Профиль Группа: Участник Сообщений: 74 Регистрация: 13.6.2006 Репутация: нет Всего: 1 |
Такой поисковик будет адски медленно работать. Индексация - это упорядочивание данных в особую структуру для быстрого поиска. В этом основное назначение индекса. А если тупо записывать все страницы в файлы - то потом по этим файлам поиск будет мягко говоря долгим.
Кстати ИМХО - от английского IMHO (In My Humble Opinion) - по моему скромному мнению =) А Имею Мнение Хрен Оспоришь - это стёб =) Это сообщение отредактировал(а) coyl - 14.12.2007, 13:47 |
|||
|
||||
kshyms |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 303 Регистрация: 30.8.2006 Где: Душанбе Репутация: нет Всего: 0 |
загрузка и генерация 1 сайт/ мин + анализ 1 мин + индексация заголовок и ключевые слова 2 мин=4 мин 15 сайтов в час и в день 225 сайтов. В каталоге Яндекс 65000 сайтов. Яндекс работает с 1996 года. Легко подсчитать сколько нужно времени, что бы приблизиться к этому уровню хотя бы теоретически. Это сообщение отредактировал(а) kshyms - 26.12.2007, 17:47 |
|||
|
||||
kshyms |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 303 Регистрация: 30.8.2006 Где: Душанбе Репутация: нет Всего: 0 |
||||
|
||||
kshyms |
|
||||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 303 Регистрация: 30.8.2006 Где: Душанбе Репутация: нет Всего: 0 |
а это уже загрузка , анализ линка и запись его в базу настроен на 30 итераций робот нового поколения.
Только пока не цикле а по одному. Думаю сгодится для добавления сайта в каталог. Это 3 недели работы.
Это сообщение отредактировал(а) kshyms - 21.1.2009, 14:13 |
||||
|
|||||
kshyms |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 303 Регистрация: 30.8.2006 Где: Душанбе Репутация: нет Всего: 0 |
Итак вырисовываются два варианта на основе генерации случайных чисел создавать линки сайтов.
1. Юзер сам ищет сайты в поисковике на сайте и пихает их в свою базу (блокнот) на его компьютере по ключевым словам 2. Админ заупскает робота-поисковика сайты анализируются и HTML коды их записываются в базу блокнот или Mysql. Последнее гораздо предпочтительнее. До меня недавно дошло, что можно будет организовать поиск по ключевым словам и записывать html коды сайтов в базу юзера. Юзер называет домен и количество итераций. И сам юзер сможет без проблем искать у себя в базе ему нужное по ключевым словам. Это по нашему мнению поисковик нового поколения. Каждому юзеру по базе. Возможно ли это сделать? Каким должно быть оптимальное решение этой проблемы? $f = fopen ("D:\1\wfsearch.08\katalog\book_message2.txt", "a"); fwrite ($f, "$url|$email|$message/$title/$html\n"); fclose ($f); Кто не согласен приведите аргументы. Это сообщение отредактировал(а) kshyms - 3.1.2008, 12:08 |
|||
|
||||
kshyms |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 303 Регистрация: 30.8.2006 Где: Душанбе Репутация: нет Всего: 0 |
Еще проблема.В цикле как правильно записать если файл пустой тогда его игнорировать?
$url=$b10 ; $file = fopen ('$url', 'r'); if (!$file) { echo "<p>не существует"; FALSE ; } |
|||
|
||||
![]() ![]() ![]() |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | PHP: Для профи | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |