VPF::найти зависимость в данных - Форум программистов

mrgloom

Дата 19.11.2012, 09:45 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет

Допустим у нас есть наблюдение 1 и наблюдение 2 и мы думаем, что эти два наблюдения связаны(или похожи), но мы не знаем как, т.е. не можем сформировать чёткий математический критерий.
Мы можем выделить из наблюдения вектор его характеристик(на самом деле мы незнаем какие характеристики нужно выделять поэтому как предполагается мы берем довольно много всего лишнего, т.е. это не шум, а просто скорее всего лишние данные).
Таких пар у нас есть много штук и мы хотим выделить из этого какой то закон- метрику, по которой мы могли бы потом найти пару для нового наблюдения, т.е. потом у нас есть N наблюдений и мы для каждого хотим найти для него ближайшее по этой обученной метрике.

как это можно сделать?

Это сообщение отредактировал(а) mrgloom - 19.11.2012, 09:46

W4FhLF

Дата 19.11.2012, 19:15 (ссылка)

(нет голосов)

Загрузка ...

found myself

Профиль
Группа: Участник Клуба
Сообщений: 2831
Регистрация: 2.12.2006

Репутация: 5
Всего: 121

(Nonlinear|Multivariate) Regression Analysis

--------------------

"Бог умер" © Ницше
"Ницше умер" © Бог

Pavia

Дата 19.11.2012, 19:57 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 418
Регистрация: 6.12.2008

Репутация: 11
Всего: 12

Хи*Хи?

IBS

Дата 20.11.2012, 00:01 (ссылка)

(нет голосов)

Загрузка ...

Бывалый

Профиль
Группа: Участник
Сообщений: 214
Регистрация: 29.7.2008
Где: Белоруссия

Репутация: нет
Всего: 6

Может ответ покажется банальным, но нейронные сети придуманы для этого )

mrgloom

Дата 20.11.2012, 14:07 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет

Цитата

(Nonlinear|Multivariate) Regression Analysis

по точной формулировке не удалось найти, скажите словами для каких задач используется?

Цитата

Хи*Хи?

это что перемножение матриц?

Цитата

Может ответ покажется банальным, но нейронные сети придуманы для этого )

ну и как вы тут примените нейросети?

вот нашел еще http://ai.stanford.edu/~ang/papers/nips02-metric.pdf во всяком случае по abstract похоже на то что нужно.
только мне не кластеризовать нужно, а по парам-примерам найти для каждого элемента в наборе точек ближайшие k соседей.
просто использовать knnsearch с какой либо обычной метрикой не слишком хорошее решение, т.е. хочется чтобы пользователь сам задал примеры похожести и уже на основе их был выполнен поиск.

Это сообщение отредактировал(а) mrgloom - 20.11.2012, 14:12

W4FhLF

Дата 20.11.2012, 14:19 (ссылка)

(нет голосов)

Загрузка ...

found myself

Профиль
Группа: Участник Клуба
Сообщений: 2831
Регистрация: 2.12.2006

Репутация: 5
Всего: 121

Цитата(mrgloom @ 20.11.2012, 14:07

)

по точной формулировке не удалось найти, скажите словами для каких задач используется?

По регрессионному анализу ничего не удалось найти? С трудом верится. (Nonlinear|Multivariate) я написал как опциональные варианты, т.е. когда линейная зависимость не подходит можно делать polynomial regression (т.е. нелинейная), если переменных много, тогда это multivariate (т.е. многомерная).

Позволю себе комментарий.
По многим темам заметил у вас нет ясности мысли. Вопросам, которые вы задаёте, явно не хватает понимания. Отсюда какие-то странные формулировки и люди вам помочь в итоге не могут. Мне кажется вы метаетесь в своих задачах, сами не зная что применить, пытаясь поверхностно попробовать много методов, но не вникая в них. Попытайтесь найти время и прочесть книгу по основам и научиться формулировать свои задачи чётко, возможно с использованием формул. Короче, без знания теории далеко не уедете.

--------------------

"Бог умер" © Ницше
"Ницше умер" © Бог

mrgloom

Дата 22.11.2012, 09:35 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет

Как раз удалось найти много)
я говорил про какую либо точную формулировку или пример применения, сама регрессия вроде как довольно широкое понятие, а я с ней еще не работал.

ну похоже то о чём я говорил называется Distance Metric Learning

Цитата

K Nearest Neighbor (KNN), heavily
rely on the distance metric for the input data patterns. Distance Metric learning
is to learn a distance metric for the input space of data from a given collection
of pair of similar/dissimilar points that preserves the distance relation among the
training data.

http://cui.unige.ch/AI-group/teaching/dmc/...urs/dm16-ml.pdf
вот кстати там на слайде 10 еще используют растояние махаланобиса и матрицу ковариации (ну это как пример вариант)

http://www.cs.cmu.edu/~liuy/distlearn.htm

Это сообщение отредактировал(а) mrgloom - 22.11.2012, 09:40

IBS

Дата 22.11.2012, 15:58 (ссылка)

(нет голосов)

Загрузка ...

Бывалый

Профиль
Группа: Участник
Сообщений: 214
Регистрация: 29.7.2008
Где: Белоруссия

Репутация: нет
Всего: 6

Цитата(mrgloom @ 20.11.2012, 14:07

)

Может ответ покажется банальным, но нейронные сети придуманы для этого )

ну и как вы тут примените нейросети?

Как обычно:
На вход подаем вектор который состоит из значений векторов характеристик первого + второго наблюдений. На выходе получаем значение от 0 до 1 которое, грубо говоря, является вероятностью того, что эти наблюдения являются парой. В простейшем случае на выходе тупо 0 либо 1.

Ну и дальше также составляем обучающую выборку(типо это является парой, а это не является) и обучаем.

Это сообщение отредактировал(а) IBS - 22.11.2012, 17:43

IBS

Дата 22.11.2012, 17:52 (ссылка)

(нет голосов)

Загрузка ...

Бывалый

Профиль
Группа: Участник
Сообщений: 214
Регистрация: 29.7.2008
Где: Белоруссия

Репутация: нет
Всего: 6

Цитата(mrgloom @ 20.11.2012, 14:07

)

Хи*Хи?

это что перемножение матриц?

http://ru.wikipedia.org/wiki/%D0%9A%D1%80%...%BE%D0%BD%D0%B0
Но, как мне кажется, он здесь не применим

mrgloom

Дата 23.11.2012, 12:33 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет

Цитата

проблема в том, что я не знаю насколько похожи пары(т.е. не имею численного представления похожести), я просто имею пары.
а мне надо на выходе получить k ближайших соседей или картинку типа таких
http://scikit-learn.org/0.10/auto_examples...lle_digits.html
т.е. по сути чтобы данные, если они действительно различаются были максимально разделены при проекции на 2д.

вот если сделать PCA на 2 измерения, то скорее всего для реальных данных получим что то неадекватное(для сравнения PCA и ISOMAP по ссылке выше например).

только тут еще возникает вопрос, как потом проверять адекватность алгоритма.
в случае многих классов хотя бы можно было посмотреть визуально хорошо ли разделяются классы, в вот в случае одного класса? (возможно чем больше дисперсия-разброс точек на 2д?)

Это сообщение отредактировал(а) mrgloom - 23.11.2012, 12:36

mrgloom

Дата 1.2.2013, 15:14 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет

опять вернулся к этой теме.

формулировка немного изменилась, но я вроде бы лучше понял, что требуется.

Допустим есть N выборок, в каждой выборке по k>=2 сэмплов(кол-во сэмплов в выборке может различаться), а каждый сэмпл это вектор длиною L(кстати интересно еще если и вектора будут разной длины) и мы должны найти такое нелинейное подпространство чтобы после проекции туда наших данных получилось (допустим по евклидовой метрике) что расстояние между сэмплами в выборке минимально, а расстояние между разными выборками максимально.

Это сообщение отредактировал(а) mrgloom - 1.2.2013, 15:29

W4FhLF

Дата 1.2.2013, 20:46 (ссылка)

(нет голосов)

Загрузка ...

found myself

Профиль
Группа: Участник Клуба
Сообщений: 2831
Регистрация: 2.12.2006

Репутация: 5
Всего: 121

http://en.wikipedia.org/wiki/Support_vector_machine

--------------------

mrgloom

Дата 4.2.2013, 09:29 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет

вы имеете ввиду представить каждую выборку как класс? т.е. использовать Multiclass SVM.

но тут проблема в том, что мне надо не классифицировать, а получить новое подпространство, чтобы находить расстояние от объекта до класса по евклидовой метрике.

вроде бы это тоже в тему
http://en.wikipedia.org/wiki/Linear_discriminant_analysis

mrgloom

Дата 4.2.2013, 10:14 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет

LDA оказалось тем самым критерием который я навелосипедил тут

Цитата

find a projection such that, in the projected space, the ratio of interclass
variance to intra-class variance is maximized.

но тут http://www.cs.nyu.edu/~yann/talks/lecun-20070914-ipam-1.pdf пишут что работает он почему то плохо.

0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема \| Алгоритмы \| Следующая тема »