Модераторы: Daevaorn
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> cpp-stemmer, стеммер 
:(
    Опции темы
Lazin
Дата 25.6.2009, 15:52 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 3820
Регистрация: 11.12.2006
Где: paranoid oil empi re

Репутация: 41
Всего: 154



в общем, по мотивам недавней темы: http://forum.vingrad.ru/forum/topic-264392...понравится.html
http://bitbucket.org/Lazin/cpp-stemmer/
это такая штука, для извлечения корня из слова, делал по алгоритму на http://snowball.tartarus.org/algorithms/russian/stemmer.html
когда-то было нужно, теперь нет, выбрасывать жалко smile 
можете начинать обсирать xD

Это сообщение отредактировал(а) Lazin - 25.6.2009, 15:54
PM MAIL Skype GTalk   Вверх
zim22
Дата 25.6.2009, 16:19 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


depict1
****


Профиль
Группа: Завсегдатай
Сообщений: 2682
Регистрация: 15.1.2009
Где: Украина

Репутация: 24
Всего: 69



Цитата(Lazin @  25.6.2009,  15:52 Найти цитируемый пост)
можете начинать обсирать xD

smile не проверяется наличие файла:
Код

std::ifstream diff("diff.txt");

при его(файла) отстутствии в условии if никогда не будет true
Код

while(true)
    {
        if (diff.eof() || diff.bad())
            break;


***
ввёл я слово "колхозница". корень у этого слова вроде как "колхоз"
но программма иного мнения: корень = колхозниц smile
***
ничто не мешает ввести последовательность символов, больше чем 0x1000
необходимо использовать strncpy
Код

char word[0x1000];
std::string first, second;
diff >> first >> second;
strcpy(word, first.c_str());


Это сообщение отредактировал(а) zim22 - 25.6.2009, 16:27


--------------------
PM MAIL   Вверх
Lazin
Дата 25.6.2009, 16:35 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 3820
Регистрация: 11.12.2006
Где: paranoid oil empi re

Репутация: 41
Всего: 154



Цитата(zim22 @  25.6.2009,  16:19 Найти цитируемый пост)
не проверяется наличие файла

не проверяет

Цитата(zim22 @  25.6.2009,  16:19 Найти цитируемый пост)
при его(файла) отстутствии в условии if никогда не будет true

не будет

потому, что это тест smile 

Цитата(zim22 @  25.6.2009,  16:19 Найти цитируемый пост)
вёл я слово "колхозница". корень у этого слова вроде как "колхоз"
но программма иного мнения: корень = колхозниц

так и задумано, это реализация алгоритма Портера, точнее его модификация описанная здесь: http://snowball.tartarus.org/algorithms/russian/stemmer.html, там есть словарь для проверки, результат работы совпадает на 100%
это нужно не для того, что-бы правильно в 100% случаев извлекать корень, а для того, что-бы эффективно индексировать текст smile 

Цитата(zim22 @  25.6.2009,  16:19 Найти цитируемый пост)
ничто не мешает ввести последовательность символов, больше чем 0x1000
необходимо использовать strncpy

в словаре diffs.txt таких длинных слов не наблюдалось smile

Добавлено @ 16:36
что за люди, лишь бы докопаться  smile 

Это сообщение отредактировал(а) Lazin - 25.6.2009, 16:39
PM MAIL Skype GTalk   Вверх
jonie
Дата 25.6.2009, 20:20 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 5613
Регистрация: 21.8.2005
Где: Владимир

Репутация: 15
Всего: 118



сделай внятное описание и на гугл код) а вдруг кому пригодится?


--------------------
Что-то не поняли? -> Напейтесь до зеленых человечков... эта сверхцивилизация Вам поможет...
PM MAIL Jabber   Вверх
Lazin
Дата 25.6.2009, 20:29 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 3820
Регистрация: 11.12.2006
Где: paranoid oil empi re

Репутация: 41
Всего: 154



Цитата(jonie @  25.6.2009,  20:20 Найти цитируемый пост)
сделай внятное описание и на гугл код) а вдруг кому пригодится?

а чем плох bitbucket?
PM MAIL Skype GTalk   Вверх
Rififi
Дата 25.6.2009, 22:33 (ссылка) |    (голосов:1) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1254
Регистрация: 9.3.2008

Репутация: 11
Всего: 36



что за люди, лишь бы докопаться
и не говори, зверьё самое натуральное :gigi:

а чем плох bitbucket? 
хм.. может быть тем, "а шо эта"? (:

PM MAIL   Вверх
jonie
Дата 26.6.2009, 00:00 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 5613
Регистрация: 21.8.2005
Где: Владимир

Репутация: 15
Всего: 118



а блин, извиняй, я чет на ссылку не посмотрел 8)) а так не качал ибо оно мне не надо)


--------------------
Что-то не поняли? -> Напейтесь до зеленых человечков... эта сверхцивилизация Вам поможет...
PM MAIL Jabber   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "С++:Общие вопросы"
Earnest Daevaorn

Добро пожаловать!

  • Черновик стандарта C++ (за октябрь 2005) можно скачать с этого сайта. Прямая ссылка на файл черновика(4.4мб).
  • Черновик стандарта C (за сентябрь 2005) можно скачать с этого сайта. Прямая ссылка на файл черновика (3.4мб).
  • Прежде чем задать вопрос, прочтите это и/или это!
  • Здесь хранится весь мировой запас ссылок на документы, связанные с C++ :)
  • Не брезгуйте пользоваться тегами [code=cpp][/code].
  • Пожалуйста, не просите написать за вас программы в этом разделе - для этого существует "Центр Помощи".
  • C++ FAQ

Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, Earnest Daevaorn

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | C/C++: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0875 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.