Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Нужны ваши идеи! P2P поисковик, и индексация защищённого содержимого 
:(
    Опции темы
sergejzr
  Дата 7.8.2005, 19:03 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 1
Всего: 360



Пожалуйста, пишите свои идеи, рассуждения, замечания по теме.

Итак:
Имеется P2P поисковая системя. Это гибрид гугля и осла. Поиск больше не производится централизованно (как в гугле). Ранкинг нельзя купить smile Индексы разбиты на части и распределены по сервер/клиентам (пирам).
Одной из слабостей поисковиков является то, что они на могут индексировать защищённые страницы. У них просто нет доступа.
Теперь представим себе рабочую группу. Им надо обмениваться информацией. Логичным была бы локальная поисковая система, но люди работают в разных концах планеты - означает, что эта система должна быть распределена. таких групп множество...

Моя идея такова... Поисковик, вы задаёте слова, а он ищет в инете, а так же во всех "закрытых" ресурсах в которые вы имеете доступ.
Преимущества P2P системы здесь в том, что она может индексировать контент пряио на своём сервере, где стоит.

Пока всё smile
Жду ваших комментов.


--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
neutrino
Дата 10.8.2005, 00:13 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Gothic soul
****


Профиль
Группа: Модератор
Сообщений: 3041
Регистрация: 25.3.2002
Где: Верхняя Галилея, Кармиэль

Репутация: нет
Всего: 62



Сергей, по-моему ты тему не туда закинул. Куда ее?


--------------------
The truth comes from within ...

Покойся с миром, Vit 
PM MAIL WWW ICQ Skype GTalk   Вверх
sergejzr
Дата 10.8.2005, 01:15 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 1
Всего: 360



А я раздела подходящего не нашёл smile
Вижу, что здесь ответов нет....

Давай попробуем в web - технологии smile
http://forum.vingrad.ru/index.php?showforum=18

Спасибо smile


--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
Sardar
Дата 10.8.2005, 01:38 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бегун
****


Профиль
Группа: Модератор
Сообщений: 6986
Регистрация: 19.4.2002
Где: Нидерланды, Groni ngen

Репутация: 4
Всего: 317



Что то не ясно в чём новинка если честно... Создали аккаунтовую систему, ввели дополнительный обязательный параметр в поиске...

Кстати в Azureus(BT клиент) есть распределённая база данных файлов...


--------------------
 Опыт - сын ошибок трудных  © А. С. Пушкин
 Процесс написания своего велосипеда повышает профессиональный уровень программиста. © Opik
 Оценить мои качества можно тут.
PM   Вверх
sergejzr
Дата 10.8.2005, 01:50 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 1
Всего: 360



Я бы хотел в гугль задать слова поиска и чтобы он искал не только в публичном интернете, на всех серверах, куда у меня есть доступ. Например на форуме даже в разделах требующих авторизации.

Я схему уже продумал. На сервере можно декларировать "working space", запароленную. Можно делать их несколько штук. Каждой определить папки и файлы, куда им можно смотреть.
На клиенте вместе с опцией "искать в интернете" будет добавочно "искать в защищённых разделах". Каждый клиент сможет таких разделов создать множество, указывая ID и логин.
Так как в P2P каждый peer является и сервером и клиентом, можно сделать довольно комплексную сеть.

Я вот только не знаю, распределять ли индексы по всей P2P сети или ограничится теме peer'ами, которые принадлежат к "working area"....

Ну и ещё идеи smile
Цитата(Sardar @ 10.8.2005, 00:38)
Azureus(BT клиент)

Если честно в первый раз слышу. Можно кинуть ссылочкой? smile



--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
Sardar
Дата 10.8.2005, 01:55 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бегун
****


Профиль
Группа: Модератор
Сообщений: 6986
Регистрация: 19.4.2002
Где: Нидерланды, Groni ngen

Репутация: 4
Всего: 317



Тогда такой вопрос: а зачем это нужно? smile
Если есть некое защённое пространство, то я не пущу туда гугль, какие бы он "защищённые воркспейсы" не предлагал...

Цитата(sergej @ 10.8.2005, 00:50)
Если честно в первый раз слышу. Можно кинуть ссылочкой?

[offtop]
http://azureus.sourceforge.net/
BitTorrent - самая быстрая сеть. В осле только доку хорошо искать, музыка и фильмы не для него.
[/offtop]



--------------------
 Опыт - сын ошибок трудных  © А. С. Пушкин
 Процесс написания своего велосипеда повышает профессиональный уровень программиста. © Opik
 Оценить мои качества можно тут.
PM   Вверх
sergejzr
Дата 10.8.2005, 01:58 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 1
Всего: 360



Цитата(Sardar @ 10.8.2005, 00:55)
Тогда такой вопрос: а зачем это нужно? smile
Если есть некое защённое пространство, то я не пущу туда гугль, какие бы он "защищённые воркспейсы" не предлагал...

Естественно, но в этом варианте "гугль" уже находится у тебя на сервере, он опенсорс и не отдаёт твои данные никому, а всего лишь публикует индекс. Естественно скачивание самих рессурсов происходит без участия самого "гугля". Стандартным путём.

smile
Ага, гляну


--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
Stampede
Дата 10.8.2005, 02:34 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Гносеолог
**


Профиль
Группа: Участник Клуба
Сообщений: 963
Регистрация: 25.4.2005
Где: Calgary, Alberta, Canada

Репутация: нет
Всего: 144



Цитата(sergej @ 7.8.2005, 19:03)
Теперь представим себе рабочую группу. Им надо обмениваться информацией. Логичным была бы локальная поисковая система, но люди работают в разных концах планеты - означает, что эта система должна быть распределена. таких групп множество...


Если это все, что тебе нужно, то для этой цели подойдет любой готовый индексатор, к которому есть внешний программный интерфес. Например, жабный Lucene. Только к нему нужно будет приделать систему идентификации, контроля доступа и, если речь идет о щепетильных материях, то еще и криптования потоков данных.

Только я не понимаю, при чем здесь p2p и в чем смысл делать индекс распределенным?

И заодно определись, тебе нужно, чтобы система занималась еще и crawling'ом, то есть сама выискивала новые материалы, или тебя устроит модель Publisher? То есть когда ты сам засылаешь документы на индексацию. Если последнее, то тебе есть смысл посмотреть в сторону document management systems.



--------------------
"If you want something done right, do it yourself"
По секрету: выучить английский - реально!
PM WWW   Вверх
Sardar
Дата 10.8.2005, 03:06 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бегун
****


Профиль
Группа: Модератор
Сообщений: 6986
Регистрация: 19.4.2002
Где: Нидерланды, Groni ngen

Репутация: 4
Всего: 317



Цитата(sergej @ 10.8.2005, 00:58)
Естественно, но в этом варианте "гугль" уже находится у тебя на сервере, он опенсорс и не отдаёт твои данные никому, а всего лишь публикует индекс.

У гугля есть бесплатный поисковик по твоему десктопу, только он н публикует твою инфу. Скорее всего по единственной причине: очень мало кому потребуеться выворачивать содержимое компа всему миру smile

Цитата(Stampede @ 10.8.2005, 01:34)
Только я не понимаю, при чем здесь p2p

Скорее всего речь идёт о некой независимой сети индексных серверов, выпад одного не нарушает всей сети в целом, хотя может временно потеряться часть инфы.

Либо что бы у каждого пользователя был свой индексатор, все пользователи обьеденяються в общую P2P сеть и передают инфу друг другу. Затем по продвинутым сетям типа BT перекачивають данные. Другое дело что мало кто захочет так публицковать своё, к тому же задолбает лишний трафик по сети, если будут коннектиться к тебе со всего миру smile

Цитата(Stampede @ 10.8.2005, 01:34)
и в чем смысл делать индекс распределенным?

Почти все поисковые машины(серьёзные, что по и-нету рыщут), построенны на несколькиц компах обьединённых в кластеры. При чём эти машины находяться по всему миру(если расматриваем гугл), индекс распределяееться между всеми. Это эффективно, хотя требует большой теории, как их обьеденить вместе smile


--------------------
 Опыт - сын ошибок трудных  © А. С. Пушкин
 Процесс написания своего велосипеда повышает профессиональный уровень программиста. © Opik
 Оценить мои качества можно тут.
PM   Вверх
Stampede
Дата 10.8.2005, 10:02 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Гносеолог
**


Профиль
Группа: Участник Клуба
Сообщений: 963
Регистрация: 25.4.2005
Где: Calgary, Alberta, Canada

Репутация: нет
Всего: 144



Цитата(Sardar @ 10.8.2005, 03:06)
Почти все поисковые машины(серьёзные, что по и-нету рыщут), построенны на несколькиц компах обьединённых в кластеры


Причина, по которой гугл хранит индекс в распределенном виде - это то, что ему приходится индексировать миллиарды документов. Для них оказывается проще написать математику, которая позволяет хранить все это хозяйство (и эффективно копаться в нем) на нескольких компах. У sergej.z, как я сильно подозреваю, задача несколько другого масштаба - такого, что с индексацией всей проектной документации (ведь речь идет именно о проектной документации - я правильно понимаю?) запросто может справиться один-единственный сервер.

Далее, почему я затронул вопрос модели публикации. В случае веб-кролера все ясно: он лазит по всем веб страницам, на которые где-либо имеются ссылки, пытается их скачать и проиндексировать. При этом в неявном виде предполагается, что все индексируемые ресурсы так или иначе доступны по HTTP - то есть любому человеку, вооруженному браузером.

Однако в случае коллективной удаленной работы над проектом ситуация мвленько отличается, потому что здесь далеко не все материалы доступны по веб протоколам: это и исходники, и скрипты, и файлы конфигурации, и документация, и графика, и еще куча всякой ерунды. Причем все это находится в состоянии непрерывного изменения разными участниками.

Я считаю (если я правильно понял задачу sergej.z, судя по его скудному описанию), что ему гораздо больше подойдет либо система контроля версий типа CVS, либо какая-то система управления документами.

А раскиданный по миру распределенный кластер p2p индексирующих машин, да с приемлемой степенью безопасности - это как бы более из области фантачтики. То есть это осуществимо, но и мотивация для такого проекта должна быть где-то на уровне заказа пентагона. А у людей, как я понимаю, задача совсем в другом, и подобная система им нужна как средство, а не как самоцель.

Вот это я и имел в виду в своем посте.

PM WWW   Вверх
sergejzr
Дата 10.8.2005, 11:48 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 1
Всего: 360



Цитата(Stampede @ 10.8.2005, 09:02)
У sergej.z, как я сильно подозреваю, задача несколько другого масштаба - такого, что с индексацией всей проектной документации (ведь речь идет именно о проектной документации - я правильно понимаю?) запросто может справиться один-единственный сервер.

Почти smile Хотя можно и так сказать. Проблема одного сервера в том, что для индексации ему придётся тянуть документы в открытом виде, чего совсем не хочется делатью Шифровать их - тоже заморочка, как вы понимаете. Поэтому P2P система очень подходит для этого.


Цитата(Stampede @ 10.8.2005, 09:02)

Далее, почему я затронул вопрос модели публикации. В случае веб-кролера все ясно: он лазит по всем веб страницам, на которые где-либо имеются ссылки, пытается их скачать и проиндексировать. При этом в неявном виде предполагается, что все индексируемые ресурсы так или иначе доступны по HTTP - то есть любому человеку, вооруженному браузером.

Да. Это ещё одна причина.
Цитата(Stampede @ 10.8.2005, 09:02)
Я считаю (если я правильно понял задачу sergej.z, судя по его скудному описанию), что ему гораздо больше подойдет либо система контроля версий типа CVS, либо какая-то система управления документами.

Нет. Речь идёт не только о документах. Как я уже сообщал, даже индексация разделов на форуме, требующая авторизации желательно происходит. То есть всего того, что сейчас скрыто от поисковиков, но куда у меня есть право входа. При интерфейсе на сложнее гугльского.

Цитата(Stampede @ 10.8.2005, 09:02)
А раскиданный по миру распределенный кластер p2p индексирующих машин, да с приемлемой степенью безопасности - это как бы более из области фантачтики. То есть это осуществимо, но и мотивация для такого проекта должна быть где-то на уровне заказа пентагона. А у людей, как я понимаю, задача совсем в другом, и подобная система им нужна как средство, а не как самоцель.

Ну в принципе это будет системой обьединения немецких Phys-Net и Math-Net. У них много разрозненных роектов, которые то и дело пересекаются. Эдесь нормально одному челу работать в 4-5 проектах одновременно. Случается, что делают то, что уже сделал кто либо из организации. Мы ещё RDF с SPARQL и будет отлично.
PS:
А насчёт скудного описания. Так попробуй чето нить описать здесь. У меня вся готовая дока ми все мысли по англицки записаны. smile Да и описывать я в принципе много не собирался. Больше думал места для фантазии оставить. Как кстати правильно перевести "peer" и "working space"? smile


--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
Sardar
Дата 10.8.2005, 15:33 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бегун
****


Профиль
Группа: Модератор
Сообщений: 6986
Регистрация: 19.4.2002
Где: Нидерланды, Groni ngen

Репутация: 4
Всего: 317



Цитата(sergej @ 10.8.2005, 10:48)
Шифровать их - тоже заморочка, как вы понимаете.

А в чём проблема? Есть открытые средства, надёжные.
Цитата(sergej @ 10.8.2005, 10:48)
Поэтому P2P система очень подходит для этого.

А в чём заключаеться подход? Я вижу только зашифрованный/не зашифрованный канал, по которому "течёт" инфа... smile
Цитата(sergej @ 10.8.2005, 10:48)
У меня вся готовая дока ми все мысли по англицки записаны.

Выкладывай, здесь все на инглише читать умеют smile
Цитата(sergej @ 10.8.2005, 10:48)
Как кстати правильно перевести "peer" и "working space"?

Peer- равный член группы smile Серьёзно можно сказать как "одноранговый узел сети".


--------------------
 Опыт - сын ошибок трудных  © А. С. Пушкин
 Процесс написания своего велосипеда повышает профессиональный уровень программиста. © Opik
 Оценить мои качества можно тут.
PM   Вверх
sergejzr
Дата 10.8.2005, 15:58 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 1
Всего: 360



Цитата(Sardar @ 10.8.2005, 14:33)
А в чём проблема? Есть открытые средства, надёжные.

Это надо чтобы шифровальщик сидел на каждом сервере и шифровал по запросу.
Причём поисковик специальный для этого так и так будет нужен.
Такое нереально осуществить. То есть реально но через peer намного проще.
Тем более, что сам поисковик уже существует. осталось только плагин для приватного спейса поставить.
www.yacy.de

А доку я ещё пишу smile Вернее только начал. Готовое есть, но мало.
Сейчас инфу собираю и продвигаюсь потихоньку.
Там обьяснения начальные конечно есть, но и воды много smile
Короче как читабельное будет что нибудь, опубликую.

"одноранговый узел сети"?
Ой, я с вашего позволения лучше peer буду писать smile




--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Продвижение и оптимизация сайтов | Следующая тема »


 




[ Время генерации скрипта: 0.1308 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.