Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Кластеризация карточек ресторанов из базы данных 
:(
    Опции темы
pigmanspb
Дата 20.4.2011, 12:34 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 3
Регистрация: 20.4.2011

Репутация: нет
Всего: нет



Всем доброго времени суток. 

Есть задача, которая ввела меня в ступор: никак не могу применить теорию к практике. 

Есть база данных из двух табличек, в которых содержится информация о ресторанах, поля табличек наполовину одинаковые, наполовину - какие-то особенные характеристики ресторанов для каждой таблицы. В одной таблице могут быть дубликаты ресторанов из другой (если имена совпадают, проверяем, совпадают ли адреса - если да, то, значит, дубликат). 

Конечная задача: выполнить кластеризацию карточек ресторанов, удалив дубликаты. 

Я не знаю, в какую сторону двигаться и что делать, прошу помощи и совета.
PM MAIL   Вверх
pigman
Дата 20.4.2011, 14:17 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 2
Регистрация: 23.5.2009
Где: Saint - P.

Репутация: нет
Всего: нет



Под кластеризацией я понимаю, в моем случае, объединение карточек ресторанов в кластеры по схожести атрибутов. Структуры БД затрагивать, мне кажется, не нужно. 

Я уже понял немного, что нужно делать. В начале у меня есть три группы карточек: первая - состоит из карточек, имеющих общие поля сразу в двух таблицах, вторая - из карточек, имеющих множество общих полей плюс те поля, которые есть только в одной табличке. И третья - соответственно - общие поля плюс остальные, которых нет во второй группе. Следовательно, и немного утрируя, минимальным расстоянием будет расстояние между карточками, принадлежащими первой группе, максимальным - между карточками второй и третьей групп соответственно. Кластер здесь - это множество карточек с минимальным расстоянием друг от друга. 

Кажется так. 

Тогда следующий вопрос: какой алгоритм кластеризации лучше применить? Непонятно.
PM MAIL ICQ Skype GTalk   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Алгоритмы"

maxim1000

Форум "Алгоритмы" предназначен для обсуждения вопросов, связанных только с алгоритмами и структурами данных, без привязки к конкретному языку программирования и/или программному продукту.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, maxim1000.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Алгоритмы | Следующая тема »


 




[ Время генерации скрипта: 0.0875 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.