Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Фильтр минус-слов 
:(
    Опции темы
Jin X
Дата 29.6.2015, 08:54 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 157
Регистрация: 5.3.2004

Репутация: нет
Всего: 1



Если кто знаком с настройкой Яндекс.Директа, там есть такая тема.
Создаём большой пул поисковых фраз, ранее вводимых пользователями, а затем нужно найти минус-слова, т.е. слова, которые не подходят по тематике.
Если "скачать", "порно", "реферат" и т.п. - это универсальные минус-слова (ну ещё можно города минусовать), то как найти остальные? Или хотя бы собрать большое кол-во и предложить пользователю.
Чтобы было понятно, например. Тематика продажа авто. Запрос "купить авто" (новые). Найденные фразы:
Код
авито купить авто +с пробегом
авто купить интернет магазин
где купить авто
купимо авто
купити авто
купить авто
купить авто +в беларуси
купить авто +в интернете
купить авто +в краснодарском
купить авто +в краснодарском крае
купить авто +в кредит
купить авто +в крыму
купить авто +в магазине
купить авто +в минске
купить авто +в москве
купить авто +в москве +и московской
купить авто +в москве +и московской области
купить авто +в москве +и области
купить авто +в московской области
купить авто +в московской области +на авито
купить авто +в области
купить авто +в россии
купить авто +в спб
купить авто +в украине
купить авто +на авито
купить авто +на авито +в москве
купить авто +на авито +в московской
купить авто +на авито москва область
купить авто +на авто ру
купить авто +с пробегом
купить авто +с пробегом +в москве
купить авто +с пробегом +на авто ру
купить авто +с пробегом область
купить авто без
купить авто бу
купить авто бу +в области
купить авто бу +в украине
купить авто ваз
купить авто край
купить авто недорого
купить авто цены
купить б +у авто
купить бу авто +на авито
купить диски +на авто
купить новое авто
купить резину +на авто
купить шторки +на авто
куплю продажа авто
куплю продажа авто договор
авито куплю авто +с пробегом московская область
авито ру купить авто +с пробегом
авто антенна купить
какое авто купить
купить авто +в +в новгороде
купить авто +в воронеже
купить авто +в донецкой области
купить авто +в екатеринбурге
купить авто +в красноярске
купить авто +в нижнем
купить авто +в нижнем новгороде
купить авто +в новосибирске
купить авто +в омске
купить авто +в рассрочку
купить авто +в ростовской области
купить авто +в салоне
купить авто +в харькове
купить авто +в челябинске
купить авто +на авито +в краснодарском
купить авто +на авито +в краснодарском крае
купить авто +на авито ру
купить авто +на рст
купить авто +с пробегом +в краснодарском
купить авто +с пробегом +в краснодарском крае
купить авто +с пробегом +в москве авито
купить авто +с пробегом +в московской
купить авто +с пробегом +в московской области
купить авто +с пробегом +в спб
купить авто +с пробегом москва +и область
купить авто +с пробегом москва московская область
купить авто бу +в донецкой
купить авто бу +в донецкой области
купить авто г
купить авто германия
купить авто дешево
купить авто донецкая
купить авто рено
купить авто ростовская
купить авто самара
купить авто санкт
купить авто фольксваген
купить авто частные объявления
купить бу авто +в москве
купить лампы +для авто
купить номер +на авто
купить пленку +для авто
купить подержанные авто
куплю авто красноярски
объявления куплю авто
фото куплю авто

явные минус-слова:
Код
бу
пробег
подержанные
авито
частные (объявления)
антенна
лампы
номер
пленку

Здесь всего сотня фраз, их можно отобрать вручную, но на делеих может быть десятки и даже сотни тысяч! Поэтому и нужна автоматизация...
Как это можно сделать?
--------------------
Бойся своей мечты, ибо она осуществима!
PM MAIL   Вверх
nworm
Дата 30.6.2015, 17:35 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 502
Регистрация: 22.10.2005

Репутация: 4
Всего: 8



Задача классификации.

Пример алгоритма решения - наивный байессовский классификатор.
Ему на вход поступают 2-а множества фраз.
1-е множество. Те фразы, которые плохие.
2-е множество. Те фразы, которые хорошие.
Классификатор строит словарь плохих и хороших слов.

Но нужно всё равно строить вручную входные данные - множества плохих и хороших фраз.

Десятки тысяч фраз - это лингвисту (у которого в школе было 5 по математике) не так и на долго.
По паре сотен оригинальных фраз в час. Затем повторы пойдут.
Вообще, в таких задачах ручные способы не так и плохо проходят.


Это сообщение отредактировал(а) nworm - 30.6.2015, 17:44
PM MAIL WWW   Вверх
Akina
Дата 1.7.2015, 09:31 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Советчик
****


Профиль
Группа: Модератор
Сообщений: 20581
Регистрация: 8.4.2004
Где: Зеленоград

Репутация: 20
Всего: 454



Цитата(Jin X @  29.6.2015,  09:54 Найти цитируемый пост)
явные минус-слова

Это для тебя они почему-то явные. Алгоритмически они вовсе даже не явные - до тех пор пока ты не подключишь смысловой анализатор (где бы ещё взять такой), который способен понять, что новые авто не бывают подержанными или там с пробегом...


--------------------
 О(б)суждение моих действий - в соответствующей теме, пожалуйста. Или в РМ. И высшая инстанция - Администрация форума.

PM MAIL WWW ICQ Jabber   Вверх
Jin X
Дата 6.7.2015, 10:34 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 157
Регистрация: 5.3.2004

Репутация: нет
Всего: 1



В том-то и сложность...
--------------------
Бойся своей мечты, ибо она осуществима!
PM MAIL   Вверх
Akina
Дата 6.7.2015, 10:46 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Советчик
****


Профиль
Группа: Модератор
Сообщений: 20581
Регистрация: 8.4.2004
Где: Зеленоград

Репутация: 20
Всего: 454



Jin X, подумай вот в каком направлении.
Вот есть некий запрос (набор слов), он даёт некий результат.
Добавим к этому запросу слово, которое нам нужно тестировать, и получим второй результат.
Теперь сравним результаты.

Вариант 1. Результаты практически идентичны (отсев составляет буквально проценты). Вывод - данное слово является словом-паразитом.
Вариант 2. Результат зримо сократился, при этом его релевантность повысилась. Вывод - данное слово является важно-смысловым.
Вариант 3. Результат зримо сократился, при этом его релевантность не изменилась. Вывод - данное слово является смысловым.
Вариант 4. Результат зримо сократился, при этом его релевантность понизилась. Вывод - данное слово является нерелевантным.

Это, конечно, не методика выявления минус-слов, но на кое-какие размышления навести может. А если обработать влияние некоего слова на массив начальных заведомо релевантных запросов - то результаты будут достойны принятия решения.


--------------------
 О(б)суждение моих действий - в соответствующей теме, пожалуйста. Или в РМ. И высшая инстанция - Администрация форума.

PM MAIL WWW ICQ Jabber   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Алгоритмы"

maxim1000

Форум "Алгоритмы" предназначен для обсуждения вопросов, связанных только с алгоритмами и структурами данных, без привязки к конкретному языку программирования и/или программному продукту.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, maxim1000.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Алгоритмы | Следующая тема »


 




[ Время генерации скрипта: 0.0739 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.