![]() |
Модераторы: skyboy, MoLeX, Aliance, ksnk |
![]() ![]() ![]() |
|
KIBIs |
|
|||
Новичок Профиль Группа: Участник Сообщений: 1 Регистрация: 15.10.2013 Репутация: нет Всего: нет |
Здравствуйте уважаемые пользователи форума. Возникла задача в реализации системы сравнения текстов на схожесть, иными словами на предмет плагиата. Реализация системы на php, хранение данных в БД MySQL. Принцип работы заключается в следующем, пользователь открывает страницу и в диалоге загрузки файла на сервер выбирает *.doc файл и загружает его на сервер. Система проводит операции над содержимым doc-файла (очистка от лишних символов, стоп-слов и прочее) записывает результат в базу и проверяет с уже существующими записями в базе на предмет их схожести. Результат сравнения выводится на той же странице. Может быть, так, что текст внутри doc файла может быть заимствован из нескольких источников, и записи о них могут храниться в базе. В записях также указывается и автор текста. Нужно чтобы результат имел вид - "Загруженный файл имеет схожесть с (перечисление записей в базе, которые имеют схожесть) авторами которых являются (перечисление авторов текстов в записях)". Возможно ли такое реализовать? Как реализовать такую идею? С чего начать? Хотелось бы выслушать ваше мнение, советы, или ссылки на что то полезное в этом направлении, реализации отдельных моментов, все, что может быть полезным. Спасибо заранее.
|
|||
|
||||
Sanchezzz |
|
|||
![]() Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1670 Регистрация: 19.11.2006 Где: Voronezh Репутация: 41 Всего: 60 |
Все возможно если подумать
Например слова записывать без склонений. (стример в помощь) Каждый документ имеет свою таблицу id word сравнивая таблица также имеет такую же структуру. Слова из первого документа заносим в таблицу А без склонений в таблицу Б заносим документ на который сравниваем также слова без склонений Дальше Sql Запрос который ищет и подсчитывает найденные слов Высчитываем процент если 60%. Дальше будите улучшать алгоритм. -------------------- Понравился ответ "+" по репе, не забываем закрывать тему, заказы в LS. |
|||
|
||||
Platon |
|
|||
![]() Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1801 Регистрация: 25.4.2006 Репутация: нет Всего: 40 |
Вообще, это классическая задачка для поисковых систем, которые активно пользуют метод шинглов
Сам я не разбираюсь по теме, но наслышан, что именно этим методом сравниваются тексты на плагиат. Это сообщение отредактировал(а) Platon - 19.10.2013, 15:12 |
|||
|
||||
![]() ![]() ![]() |
Правила форума "PHP" | |
|
Новичкам:
Важно:
Внимание:
Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, IZ@TOP, skyboy, SamDark, MoLeX, awers. |
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | PHP: Общие вопросы | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |