![]() |
Модераторы: Daevaorn |
![]() ![]() ![]() |
|
kulibinka |
|
|||
Бывалый ![]() Профиль Группа: Участник Сообщений: 191 Регистрация: 20.11.2006 Репутация: 2 Всего: 4 |
Как максимально быстро сравнить два спискаКак максимально быстро сравнить два списка.
Суть задачи в следующем: у меня есть список (spisok) длинны n. Он состоит из списков некоторых слов. Например [[a, b, c], [c, k], [3, i, l, d, k], ...] Мне нужно сравнить между собой все елементы spisok - сравнить значит подсчитать какие слова в каждых из двух елементов совпадают ((n*n + n)/2 операций). Загвоздка в том что n у меня очень большое (десятки тысяч), и потому очень важно найти максимально быструю ф-ю сравнения двух списков из слов. У меня есть 2 версии этой ф-ии (см. код), которые приблизительно равные по быстродействию. Список длинны n = 300 они обрабатывают за 200 и 203 секунды соответственно (у меня 600 пентиум и 512 оперативной памяти), но это чересчур медленно для моей задачи. Подскажите пожалуйста ф-ю с быстродействием повыше чем мои.
|
|||
|
||||
Artemios |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 405 Регистрация: 14.8.2006 Где: Саратов, Россия Репутация: 18 Всего: 50 |
Вопрос: список рассматривается как упорядоченный набор, или как неупорядоченное множество?
То есть равны ли в твоей задаче списки [a,b,c] и [b,c,a]? -------------------- fib = 1: 1: [ x+y | (x,y) <- zip fib (tail fib) ] |
|||
|
||||
Mkdir |
|
||||||
Новичок Профиль Группа: Участник Сообщений: 7 Регистрация: 8.12.2006 Репутация: нет Всего: нет |
Для начала давайте исправим ошибки в коде =)
строки 20-22:
а по идее программы предполагается следующее:
но после правки я так и не дождался второго результата... =) Когда я внимательнее вник в исходник, то мне либо показалось что Вы сделали все слишком сложно, либо я плохо понял задачу. В любом случае, вот мой вариант:
Если я правильно понял задачу, то моя "реализация" превзойдёт все ваши ожидания =) Это сообщение отредактировал(а) Mkdir - 8.12.2006, 09:33 |
||||||
|
|||||||
Artemios |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 405 Регистрация: 14.8.2006 Где: Саратов, Россия Репутация: 18 Всего: 50 |
В случае упорядоченного набора попробуй функцию:
(хотя скорость особо гарантировать не буду ![]() Это сообщение отредактировал(а) Artemios - 8.12.2006, 09:42 -------------------- fib = 1: 1: [ x+y | (x,y) <- zip fib (tail fib) ] |
|||
|
||||
Mkdir |
|
|||
Новичок Профиль Группа: Участник Сообщений: 7 Регистрация: 8.12.2006 Репутация: нет Всего: нет |
Я еще раз перечитал тему и понял, что все-таки неправильно понял =)
|
|||
|
||||
Artemios |
|
||||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 405 Регистрация: 14.8.2006 Где: Саратов, Россия Репутация: 18 Всего: 50 |
Угу, я тоже неправильно. Все-таки неупорядоченные множества ![]() -------------------- fib = 1: 1: [ x+y | (x,y) <- zip fib (tail fib) ] |
||||
|
|||||
FunnyFalcon |
|
||||
Шустрый ![]() Профиль Группа: Участник Сообщений: 76 Регистрация: 27.3.2006 Репутация: 4 Всего: 7 |
Попробуйте это. Не уверен, но может оказаться быстрее.
Или даже усложнить:
|
||||
|
|||||
Artemios |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 405 Регистрация: 14.8.2006 Где: Саратов, Россия Репутация: 18 Всего: 50 |
Для неупорядоченных наборов еще вопросы:
Могут ли в списках встречаться повторяющиеся элементы, и если да, то зависит ли сравнение от количества повторений, то есть равны ли списки [a,b,c] и [a,a,b,c], а также списки [a,a,b,c] и [a,b,b,c] ? Распределение (вероятность) совпадающих и несовпадающих элементов в основной задаче? -------------------- fib = 1: 1: [ x+y | (x,y) <- zip fib (tail fib) ] |
|||
|
||||
albertn |
|
|||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 368 Регистрация: 17.7.2006 Где: г. Ставрополь Репутация: 30 Всего: 34 |
kulibinka, приведи пример с использованием полученных сравнений, тогда будет всем более понятно
|
|||
|
||||
Artemios |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 405 Регистрация: 14.8.2006 Где: Саратов, Россия Репутация: 18 Всего: 50 |
И еще
если время критично, может имеет смысл написать сравнение на Си, а потом откомпилировать, как расширение для Питона? -------------------- fib = 1: 1: [ x+y | (x,y) <- zip fib (tail fib) ] |
|||
|
||||
albertn |
|
|||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 368 Регистрация: 17.7.2006 Где: г. Ставрополь Репутация: 30 Всего: 34 |
Вот кстати функция, которая возвращает матрицу смежности, и треугольную ее версию.
Работает медленнее т.к. генерирует сам список. Но если бы твоя функция генерировала подобный список возможно работала бы медленнее. |
|||
|
||||
Mkdir |
|
|||
Новичок Профиль Группа: Участник Сообщений: 7 Регистрация: 8.12.2006 Репутация: нет Всего: нет |
+1. Вполне возможно, что задачу можно совсем по-другому решать =) |
|||
|
||||
kulibinka |
|
||||
Бывалый ![]() Профиль Группа: Участник Сообщений: 191 Регистрация: 20.11.2006 Репутация: 2 Всего: 4 |
За исправление ф-ии сравнения еффективности ф-й спасибо
![]() Насчет того Зачем мне это надо: Все это для вычесления того насколько похожи между собой 2 текста. Пока я знаю только один метод - метод шинглов (http://company.yandex.ru/articles/article10.html и http://company.yandex.ru/articles/spamooborona.html). Вкратце: вот нужно мне например сравнить 2 текста. Тогда я для каждого из них создаю список шинглов, а потом сравниваю эти 2 списка. Из самой идеи шинглов видно что списки неупорядочены. "Равны ли [a,b,c] и [a,a,b,c]" это значит что первый текст на 100% лежи во втором (на 100% похож на второй), а второй на 75% похож на первый (3 из 4-х елементов полностью совпали). "Равны ли [a,a,b,c] и [a,b,b,c]" Аналогично - не равны. Но на 75% похожи друг на друга. Добавлено @ 22:25
совершенно неизвестные. И о длинне списков ничего неизвестно.
ох... хорошо бы попробовать, но о Си я ничегошеньки не знаю ![]() |
||||
|
|||||
kulibinka |
|
||||
Бывалый ![]() Профиль Группа: Участник Сообщений: 191 Регистрация: 20.11.2006 Репутация: 2 Всего: 4 |
Дополнительно попробовал ф-ии от FunnyFalcon и модуль psyco.
Результат тестов:
FunnyFalcon*psyco работает в 3 раза быстрее чем моя самая быстрая ф-я! И это уже что-то ![]() |
||||
|
|||||
Artemios |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 405 Регистрация: 14.8.2006 Где: Саратов, Россия Репутация: 18 Всего: 50 |
Здесь: http://forum.vingrad.ru/topic-121705/view/all/index.html над той же задачей думают. Это сообщение отредактировал(а) Artemios - 9.12.2006, 00:51 -------------------- fib = 1: 1: [ x+y | (x,y) <- zip fib (tail fib) ] |
|||
|
||||
![]() ![]() ![]() |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Python: Общие вопросы | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |