Поиск:

Ответ в темуСоздание новой темы Создание опроса
> найти зависимость в данных 
:(
    Опции темы
mrgloom
Дата 19.11.2012, 09:45 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



Допустим у нас есть наблюдение 1 и наблюдение 2 и мы думаем, что эти два наблюдения связаны(или похожи), но мы не знаем как, т.е. не можем сформировать чёткий математический критерий.
Мы можем выделить из наблюдения вектор его характеристик(на самом деле мы незнаем какие характеристики нужно выделять поэтому как предполагается мы берем довольно много всего лишнего, т.е. это не шум, а просто скорее всего лишние данные).
Таких пар у нас есть много штук и мы хотим выделить из этого какой то закон- метрику, по которой мы могли бы потом  найти пару для нового наблюдения, т.е. потом у нас есть N наблюдений и мы для каждого хотим найти для него ближайшее по этой обученной метрике.

как это можно сделать?

Это сообщение отредактировал(а) mrgloom - 19.11.2012, 09:46
PM MAIL   Вверх
W4FhLF
Дата 19.11.2012, 19:15 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


found myself
****


Профиль
Группа: Участник Клуба
Сообщений: 2831
Регистрация: 2.12.2006

Репутация: 5
Всего: 121



(Nonlinear|Multivariate) Regression Analysis


--------------------
"Бог умер" © Ницше
"Ницше умер" © Бог
PM ICQ   Вверх
Pavia
Дата 19.11.2012, 19:57 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 418
Регистрация: 6.12.2008

Репутация: 11
Всего: 12



Хи*Хи?
PM MAIL   Вверх
IBS
Дата 20.11.2012, 00:01 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 214
Регистрация: 29.7.2008
Где: Белоруссия

Репутация: нет
Всего: 6



Может ответ покажется банальным, но нейронные сети придуманы для этого )
PM MAIL   Вверх
mrgloom
Дата 20.11.2012, 14:07 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



Цитата

(Nonlinear|Multivariate) Regression Analysis 

по точной формулировке не удалось найти, скажите словами для каких задач используется?

Цитата

 Хи*Хи? 

это что перемножение матриц?

Цитата

Может ответ покажется банальным, но нейронные сети придуманы для этого ) 

ну и как вы тут примените нейросети?



вот нашел еще http://ai.stanford.edu/~ang/papers/nips02-metric.pdf во всяком случае по abstract похоже на то что нужно.
только мне не кластеризовать нужно, а по парам-примерам найти для каждого элемента в наборе точек ближайшие k соседей. 
просто использовать knnsearch с какой либо обычной метрикой не слишком хорошее решение, т.е. хочется чтобы пользователь сам задал примеры похожести и уже на основе их был выполнен поиск.

Это сообщение отредактировал(а) mrgloom - 20.11.2012, 14:12
PM MAIL   Вверх
W4FhLF
Дата 20.11.2012, 14:19 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


found myself
****


Профиль
Группа: Участник Клуба
Сообщений: 2831
Регистрация: 2.12.2006

Репутация: 5
Всего: 121



Цитата(mrgloom @  20.11.2012,  14:07 Найти цитируемый пост)
по точной формулировке не удалось найти, скажите словами для каких задач используется?


По регрессионному анализу ничего не удалось найти? С трудом верится. (Nonlinear|Multivariate) я написал как опциональные варианты, т.е. когда линейная зависимость не подходит можно делать polynomial regression (т.е. нелинейная), если переменных много, тогда это multivariate (т.е. многомерная).

Позволю себе комментарий.
По многим темам заметил у вас нет ясности мысли. Вопросам, которые вы задаёте, явно не хватает понимания. Отсюда какие-то странные формулировки и люди вам помочь в итоге не могут. Мне кажется вы метаетесь в своих задачах, сами не зная что применить, пытаясь поверхностно попробовать много методов, но не вникая в них. Попытайтесь найти время и прочесть книгу по основам и научиться формулировать свои задачи чётко, возможно с использованием формул. Короче, без знания теории далеко не уедете. 


--------------------
"Бог умер" © Ницше
"Ницше умер" © Бог
PM ICQ   Вверх
mrgloom
Дата 22.11.2012, 09:35 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



Как раз удалось найти много)
я говорил про какую либо точную формулировку или пример применения, сама регрессия вроде как довольно широкое понятие, а я с ней еще не работал.


ну похоже то о чём я говорил называется Distance Metric Learning
Цитата

K Nearest Neighbor (KNN), heavily
rely on the distance metric for the input data patterns. Distance Metric learning
is to learn a distance metric for the input space of data from a given collection
of pair of similar/dissimilar points that preserves the distance relation among the
training data.


http://cui.unige.ch/AI-group/teaching/dmc/...urs/dm16-ml.pdf
вот кстати там на слайде 10 еще используют растояние махаланобиса и матрицу ковариации (ну это как пример вариант)

http://www.cs.cmu.edu/~liuy/distlearn.htm

Это сообщение отредактировал(а) mrgloom - 22.11.2012, 09:40
PM MAIL   Вверх
IBS
Дата 22.11.2012, 15:58 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 214
Регистрация: 29.7.2008
Где: Белоруссия

Репутация: нет
Всего: 6



Цитата(mrgloom @  20.11.2012,  14:07 Найти цитируемый пост)
Может ответ покажется банальным, но нейронные сети придуманы для этого ) 

ну и как вы тут примените нейросети?


Как обычно: 
На вход подаем вектор который состоит из значений векторов характеристик первого + второго наблюдений. На выходе получаем значение от 0 до 1 которое, грубо говоря, является вероятностью того, что эти наблюдения являются парой. В простейшем случае на выходе тупо 0 либо 1.

Ну и дальше также составляем обучающую выборку(типо это является парой, а это не является) и обучаем.

Это сообщение отредактировал(а) IBS - 22.11.2012, 17:43
PM MAIL   Вверх
IBS
Дата 22.11.2012, 17:52 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 214
Регистрация: 29.7.2008
Где: Белоруссия

Репутация: нет
Всего: 6



Цитата(mrgloom @  20.11.2012,  14:07 Найти цитируемый пост)
Хи*Хи? 

это что перемножение матриц?

http://ru.wikipedia.org/wiki/%D0%9A%D1%80%...%BE%D0%BD%D0%B0
Но, как мне кажется, он здесь не применим  
PM MAIL   Вверх
mrgloom
Дата 23.11.2012, 12:33 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



Цитата

Как обычно: 
На вход подаем вектор который состоит из значений векторов характеристик первого + второго наблюдений. На выходе получаем значение от 0 до 1 которое, грубо говоря, является вероятностью того, что эти наблюдения являются парой. В простейшем случае на выходе тупо 0 либо 1.

Ну и дальше также составляем обучающую выборку(типо это является парой, а это не является) и обучаем.


проблема в том, что я не знаю насколько похожи пары(т.е. не имею численного представления похожести), я просто имею пары.
а мне надо на выходе получить k ближайших соседей или картинку типа таких 
http://scikit-learn.org/0.10/auto_examples...lle_digits.html
т.е. по сути чтобы данные, если они действительно различаются были максимально разделены при проекции на 2д.

вот если сделать PCA на 2 измерения, то скорее всего для реальных данных получим что то неадекватное(для сравнения PCA и ISOMAP по ссылке выше например).

только тут еще возникает вопрос, как потом проверять адекватность алгоритма.
в случае многих классов хотя бы можно было посмотреть визуально хорошо ли разделяются классы, в вот в случае одного класса? (возможно чем больше дисперсия-разброс точек на 2д?)

Это сообщение отредактировал(а) mrgloom - 23.11.2012, 12:36
PM MAIL   Вверх
mrgloom
Дата 1.2.2013, 15:14 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



опять вернулся к этой теме.

формулировка немного изменилась, но я вроде бы лучше понял, что требуется.

Допустим есть N выборок, в каждой выборке по k>=2 сэмплов(кол-во сэмплов в выборке может различаться), а каждый сэмпл это вектор длиною L(кстати интересно еще если и вектора будут разной длины) и мы должны найти такое нелинейное подпространство чтобы после проекции туда наших данных получилось (допустим по евклидовой метрике) что расстояние между сэмплами в выборке минимально, а расстояние между разными выборками максимально.

Это сообщение отредактировал(а) mrgloom - 1.2.2013, 15:29
PM MAIL   Вверх
W4FhLF
Дата 1.2.2013, 20:46 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


found myself
****


Профиль
Группа: Участник Клуба
Сообщений: 2831
Регистрация: 2.12.2006

Репутация: 5
Всего: 121





--------------------
"Бог умер" © Ницше
"Ницше умер" © Бог
PM ICQ   Вверх
mrgloom
Дата 4.2.2013, 09:29 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



вы имеете ввиду представить каждую выборку как класс? т.е. использовать Multiclass SVM.

но тут проблема в том, что мне надо не классифицировать, а получить новое подпространство, чтобы находить расстояние от объекта до класса по евклидовой метрике.


вроде бы это тоже в тему
http://en.wikipedia.org/wiki/Linear_discriminant_analysis
PM MAIL   Вверх
mrgloom
Дата 4.2.2013, 10:14 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



LDA оказалось тем самым критерием который я навелосипедил тут
Цитата

find a projection such that, in the projected space, the ratio of interclass
variance to intra-class variance is maximized.

но тут http://www.cs.nyu.edu/~yann/talks/lecun-20070914-ipam-1.pdf пишут что работает он почему то плохо.
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Алгоритмы"

maxim1000

Форум "Алгоритмы" предназначен для обсуждения вопросов, связанных только с алгоритмами и структурами данных, без привязки к конкретному языку программирования и/или программному продукту.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, maxim1000.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Алгоритмы | Следующая тема »


 




[ Время генерации скрипта: 0.1319 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.