Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Алгоритм выбора лучших и худших товаров, как лучше сделать? 
:(
    Опции темы
proger
Дата 29.12.2010, 20:32 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 400
Регистрация: 10.10.2004

Репутация: нет
Всего: 1



Здравствуйте,
есть интернет магазин, в котором люди пишут отзывы о товарах, указывая ОЦЕНКУ и тип отзыва (положительный/отрицательный).
Например за товар может быть 3 отзыва положительных (с баллами 5,7,6) и 1 отрицательный (с баллом 4).
Хотел на сайте в каждой категории выводить 5 лучших и худших товаров на основе отзывов.
Щас алгоритм выбора такой:
  • сортирую товары по кол-ву отзывов (берем 5 штук у которых больше отзывов) т.к. считаю, это более обсуждаемые товары и кол-во отзывов более независимо оценивают товар
  • затем сортирую по соотношению положительных отзывов ко всем т.е. чем больше положительных отзывов к общему числу, тем лучше
  • и в конце сортирую по среднему баллу
Не уверен что алгоритм достоверный, но как еще на основе типа отзыва и оценки можно выбирать?
PM MAIL   Вверх
Akina
Дата 29.12.2010, 22:36 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Советчик
****


Профиль
Группа: Модератор
Сообщений: 20581
Регистрация: 8.4.2004
Где: Зеленоград

Репутация: 20
Всего: 454



Можно придумать много вариаций, и все они будут по-своему верными и по-своему ошибочными.
Вопрос не имеет смысла.


--------------------
 О(б)суждение моих действий - в соответствующей теме, пожалуйста. Или в РМ. И высшая инстанция - Администрация форума.

PM MAIL WWW ICQ Jabber   Вверх
VictorTsaregorodtsev
Дата 29.12.2010, 22:38 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 274
Регистрация: 28.7.2006

Репутация: 3
Всего: 8



Выкиньте явный тип отзыва - введите положительность и отрицательность отзыва непосредственно в оценку. Как в школьных-ВУЗовских оценках.
А далее - обычные статистические расчеты среднего и дисперсии для значений оценок по товару. Чем выше дисперсия - тем менее однородны (более разнонаправленные) оценки покупателей.
Т.е. алгоритм таков - сначала берутся товары, у которых число отзывов превышает некоторый минимум (чтобы картина по ним сформировалась более-менее достоверная), далее они сортируются по средним значениям оценок, и для товаров с совпадающими средними проводится ранжирование еще и по дисперсии (больше дисперсия - хуже товар, т.к. он почему-то сильно нестабильно соответствует ожиданиям покупателей).
Выводить на экран значения дисперсий не надо - только значения средних баллов. Средние можно округлять до целых значений (или брать не более одного-двух знаков после запятой), а то если считать с точностью в 6-7 значащих цифр (одинарная точность) - то может не потребоваться считать дисперсии, т.к. средние очень, очень редко будут совпадать при такой большой точности расчетов (либо средние будут совпадать только для товаров, всеми пользователями оцениваемых одним и тем же баллом - но тогда из-за отсутствия варьирования баллов дисперсии оценок будут нулевыми, т.е. тоже бесполезными для ранжирования товаров с одинаковым баллом друг относительно друга).
PM MAIL WWW   Вверх
proger
Дата 30.12.2010, 07:51 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 400
Регистрация: 10.10.2004

Репутация: нет
Всего: 1



Цитата(VictorTsaregorodtsev @ 29.12.2010,  22:38)
Выкиньте явный тип отзыва - введите положительность и отрицательность отзыва непосредственно в оценку. Как в школьных-ВУЗовских оценках.
А далее - обычные статистические расчеты среднего и дисперсии для значений оценок по товару. Чем выше дисперсия - тем менее однородны (более разнонаправленные) оценки покупателей.
Т.е. алгоритм таков - сначала берутся товары, у которых число отзывов превышает некоторый минимум (чтобы картина по ним сформировалась более-менее достоверная), далее они сортируются по средним значениям оценок, и для товаров с совпадающими средними проводится ранжирование еще и по дисперсии (больше дисперсия - хуже товар, т.к. он почему-то сильно нестабильно соответствует ожиданиям покупателей).
Выводить на экран значения дисперсий не надо - только значения средних баллов. Средние можно округлять до целых значений (или брать не более одного-двух знаков после запятой), а то если считать с точностью в 6-7 значащих цифр (одинарная точность) - то может не потребоваться считать дисперсии, т.к. средние очень, очень редко будут совпадать при такой большой точности расчетов (либо средние будут совпадать только для товаров, всеми пользователями оцениваемых одним и тем же баллом - но тогда из-за отсутствия варьирования баллов дисперсии оценок будут нулевыми, т.е. тоже бесполезными для ранжирования товаров с одинаковым баллом друг относительно друга).

Спасибо большое за совет!
PM MAIL   Вверх
Akina
Дата 30.12.2010, 09:20 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Советчик
****


Профиль
Группа: Модератор
Сообщений: 20581
Регистрация: 8.4.2004
Где: Зеленоград

Репутация: 20
Всего: 454



Получив среднее и дисперсию, рекомендую посмотреть на выборку... если в ней есть выброс за пределы доверительного интервала - его лучше проигнорировать.


--------------------
 О(б)суждение моих действий - в соответствующей теме, пожалуйста. Или в РМ. И высшая инстанция - Администрация форума.

PM MAIL WWW ICQ Jabber   Вверх
proger
Дата 30.12.2010, 12:39 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 400
Регистрация: 10.10.2004

Репутация: нет
Всего: 1



Цитата(Akina @ 30.12.2010,  09:20)
Получив среднее и дисперсию, рекомендую посмотреть на выборку... если в ней есть выброс за пределы доверительного интервала - его лучше проигнорировать.

Как понять доверительный интервал, можно подробнее?
PM MAIL   Вверх
Akina
Дата 30.12.2010, 12:57 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Советчик
****


Профиль
Группа: Модератор
Сообщений: 20581
Регистрация: 8.4.2004
Где: Зеленоград

Репутация: 20
Всего: 454





--------------------
 О(б)суждение моих действий - в соответствующей теме, пожалуйста. Или в РМ. И высшая инстанция - Администрация форума.

PM MAIL WWW ICQ Jabber   Вверх
proger
Дата 30.12.2010, 14:22 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 400
Регистрация: 10.10.2004

Репутация: нет
Всего: 1



Цитата(Akina @ 30.12.2010,  12:57)
http://tinyurl.com/25y5r52

тупонул, спасибо!
PM MAIL   Вверх
proger
Дата 30.12.2010, 14:45 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 400
Регистрация: 10.10.2004

Репутация: нет
Всего: 1



А можете показать примерами на числах smile если кому не трудно!
Например возьмем голоса  (по 10 бальной шкале): 
Код










8
сумма: 58
среднее: 5,8

Дисперсия (D-M)
Код

-4.8
-0.8
2.2 
3.2
-1.8
-0.8
-0.8 
0.2 
1.2
2.2
сумма: 0
среднее: 0

Квадрат (D-M)
Код

23,04
0,64
4,84
10,24
3,24
0,64
0,64
0,04
1,44
4,84
сумма: 49,6
среднее: 4,96

стандартного отклонения, корень из 4,96 = 2,22

Получается, чем у товара меньше стандартное отклонение, тем он лучше!

Теперь надо разобраться с доверительным интервалом ....

Это сообщение отредактировал(а) proger - 30.12.2010, 15:06
PM MAIL   Вверх
VictorTsaregorodtsev
Дата 30.12.2010, 21:41 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 274
Регистрация: 28.7.2006

Репутация: 3
Всего: 8



Цитата(Akina @  30.12.2010,  09:20 Найти цитируемый пост)
Получив среднее и дисперсию, рекомендую посмотреть на выборку... если в ней есть выброс за пределы доверительного интервала - его лучше проигнорировать.

За пределы доверительного интервала для среднего выбросы (во множественном числе) будут в любом случае ;) Просто из-за способа расчета этого самого доверительного интервала для среднего.
А смотреть наличие выходов за плюс-минус три сигмы может быть тоже малоприемлемо, т.к. градаций оценок мало (5-10) и они нормальное распределение не всегда хорошо зааппроксимируют. Проверять еще и гипотезу на соответствие распределения нормальному (или для каждого вида распределения и его параметров строить способ расчета доверительного интервала) - неоправданное, думаю, переусложнение.
PM MAIL WWW   Вверх
proger
Дата 31.12.2010, 12:26 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 400
Регистрация: 10.10.2004

Репутация: нет
Всего: 1



Цитата(VictorTsaregorodtsev @ 30.12.2010,  21:41)
Цитата(Akina @  30.12.2010,  09:20 Найти цитируемый пост)
Получив среднее и дисперсию, рекомендую посмотреть на выборку... если в ней есть выброс за пределы доверительного интервала - его лучше проигнорировать.

За пределы доверительного интервала для среднего выбросы (во множественном числе) будут в любом случае ;) Просто из-за способа расчета этого самого доверительного интервала для среднего.
А смотреть наличие выходов за плюс-минус три сигмы может быть тоже малоприемлемо, т.к. градаций оценок мало (5-10) и они нормальное распределение не всегда хорошо зааппроксимируют. Проверять еще и гипотезу на соответствие распределения нормальному (или для каждого вида распределения и его параметров строить способ расчета доверительного интервала) - неоправданное, думаю, переусложнение.

Спасибо
PM MAIL   Вверх
миг
Дата 10.1.2011, 21:43 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 158
Регистрация: 15.9.2008

Репутация: нет
Всего: 1



смотря какие товары.. Если товары в разной потребительской категории например молоко и автомобиль, то сравнивать какой из них лучший это как то не правильно.. Ну, а если в одной потребительской категории например хонда и тойота. то на основе отзывов пользователей можно составить только субъективный рейтинг.. Кому-то понравиться цвет машины, кому-то сиденья, кому-то коробка передач, кому-то салон, кому-то мощность двигателя и т.д. 
--------------------
Oaks may fall when reeds stand the storm.
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Алгоритмы"

maxim1000

Форум "Алгоритмы" предназначен для обсуждения вопросов, связанных только с алгоритмами и структурами данных, без привязки к конкретному языку программирования и/или программному продукту.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, maxim1000.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Алгоритмы | Следующая тема »


 




[ Время генерации скрипта: 0.1065 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.