Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Подскажите алгоритм фильтрации данных, Подскажите алгоритм определения выбросов 
:(
    Опции темы
Nataniil
Дата 9.3.2011, 12:50 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 4
Регистрация: 1.3.2011

Репутация: нет
Всего: нет



У меня возникла такая задача: есть вольшя выборка. Для нее я построила жоверительные интервалы по правилу "трех сигм". Основной вопрос в следующем: если точка за него выходит, то это не хорошо. Нужно определить почему: толи это выброс то ли просто момент расширения системы. Основная загвоздка у меня состоит в том, что если это действительно выброс, то не обязательно он не проявиться дальше.
Помогите!!!
PM MAIL   Вверх
_Y_
Дата 9.3.2011, 16:04 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1651
Регистрация: 27.11.2006

Репутация: 8
Всего: 34



Как Вы определяете что такое момент расширения системы?


--------------------
Я вот в этом поучаствовал: http://sbor-nik.appspot.com/kick.jsp?id=sbor5737960678883328 (на правах саморекламы:)
PM MAIL WWW   Вверх
Nataniil
Дата 9.3.2011, 16:47 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 4
Регистрация: 1.3.2011

Репутация: нет
Всего: нет



Ну вот например, у меня есть данные загрузки процессора. Для них я составил доверительные интервалы. В какой-то момент у меня может резко увеличиться активность пользователей => увеличиться загрузка процессора, это я называю расширением системы. Основная загвоздка в том, что я не могу сопоставить активность пользователей в среднем и загрузкой процессора. Но возможна и другая ситуация - начинае тормозить сервак, тогда тоже систему сильно грузит, вот только в отличии от предыдущей ситуации - нужно громко кричать об этой ситуации
PM MAIL   Вверх
_Y_
Дата 10.3.2011, 14:35 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1651
Регистрация: 27.11.2006

Репутация: 8
Всего: 34



Ага. Теперь чуть яснее. С одной стороны - выборка - понятие не подразумевающее развертки по времени; с другой - именно динамика во времени.

Четкого ответа я пока сформулировать не смог (может кто другой сможет), но что если делать как-то так:

Вариант 1.
  • С определенной частотой повторяем взятие выборки.
  • Выбросы откидываем в соортветствии с простейшими статистическими правилами, но запоминаем их наличие и величину.
  • Если выбросы устойчиво  повторяются, значит они не выбросы, а расширение сыстемы.
Враиант 2.
  • Назначаем величину выборки, скажем 100 измерений, но измерения берем не параллельно, как надлежит, а поскледовательно с определенной частотой. Считаем для выборки доверительный интервал и игнорируем выбросы.
  • С той же частотой добавляем новые точки в выборку и отбрасываем самые старые. Динамически пересчитываем статхарактеристики (добверительный интервал и т.п.). По изменению статхарактеристик судим о динамике ситуации.


Это сообщение отредактировал(а) _Y_ - 10.3.2011, 14:37


--------------------
Я вот в этом поучаствовал: http://sbor-nik.appspot.com/kick.jsp?id=sbor5737960678883328 (на правах саморекламы:)
PM MAIL WWW   Вверх
Nataniil
Дата 10.3.2011, 19:08 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 4
Регистрация: 1.3.2011

Репутация: нет
Всего: нет



Спасибо за ответ!!!!
Если будут еще предложения - пишите. Буду очень рад.
PM MAIL   Вверх
VictorTsaregorodtsev
Дата 10.3.2011, 21:50 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 274
Регистрация: 28.7.2006

Репутация: 3
Всего: 8



Nataniil, можно посмотреть и в сторону алгоритмов сегментации нестационарных временных рядов (т.к. не всегда у Вас данные будут хорошо описываться нормальным законом и тремя сигмами - может потребоваться анализировать не вылет точки за 3 сигмы, а какой-то участок ряда, поэтому лучше анализировать порождающую этот ряд внутреннюю динамику системы).
Сейчас эти алгоритмы очень эффективны по загрузке проца (вообще, во многих областях Data mining лучшие алгоритмы сейчас трудозатратны ЛИНЕЙНО по каждой размерности данных) и могут исполняться в онлайн-режиме (т.е. запускаться сразу в режиме "боевой работы" системы, т.е. без предварительного сбора обучающей выборки). Есть возможность и регулировать чувствительность сегментации ряда (чтобы выкидывать очень короткие нетипичные участки - в Вашем случае они могут соответствовать редким пиковым нагрузкам на нетормозящий сервак).
Желающим могу даже назвать ФИО немца и пару его работ по таким эффективным алгоритмам сегментации временных рядов (правда, сам я глубоко в эти статьи не вникал и на практике алгоритмы из этих статей не реализовал) - но только в обмен на пиар меня любимого (ставите где-нибудь в приличном месте в интернете ссылку на указанный в подписи мой сайт, присылаете в личку или в мыло ссылку на страницу со ссылкой на меня - и я в ответ присылаю статьи).
PM MAIL WWW   Вверх
Nataniil
Дата 17.3.2011, 14:17 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 4
Регистрация: 1.3.2011

Репутация: нет
Всего: нет



Ау? Может у кого идеи появились? 

Это сообщение отредактировал(а) Nataniil - 23.3.2011, 16:17
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Алгоритмы"

maxim1000

Форум "Алгоритмы" предназначен для обсуждения вопросов, связанных только с алгоритмами и структурами данных, без привязки к конкретному языку программирования и/или программному продукту.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, maxim1000.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Алгоритмы | Следующая тема »


 




[ Время генерации скрипта: 0.0693 ]   [ Использовано запросов: 20 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.