![]() |
Модераторы: korob2001, ginnie |
![]() ![]() ![]() |
|
amg |
|
|||
Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1145 Регистрация: 3.8.2006 Где: Новосибирск Репутация: 38 Всего: 50 |
||||
|
||||
LisaST |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 56 Регистрация: 8.4.2006 Где: Munich Репутация: нет Всего: нет |
ничего не понимаю ©. добавила пустую строку. сохраняла как shel.sh.txt -> запускаю..пишет
"Usage: gold.pos crf.pos" и закачивает выполнение скрипта если запускаю файл, сохранненый как shell.sh, пишет cannot execute binary file |
|||
|
||||
LisaST |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 56 Регистрация: 8.4.2006 Где: Munich Репутация: нет Всего: нет |
Всем добрый день,
вообщем пробовала тестировать на моем тексте с ~57000 строк, всегда после <tag-rm> остаются неодинаковые тексты (<inconsistent files> v tag-count), простестировала тогда для существительных на 100 строках, получила результат...дифф показал, что файлы одинаковы какие-нибудь будут идеи, что-же делать с большим текстом (у меня предположения, что проблема может быть во всяких знаках- кавычки разного вида етц) |
|||
|
||||
amg |
|
|||
Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1145 Регистрация: 3.8.2006 Где: Новосибирск Репутация: 38 Всего: 50 |
LisaST, чем различаются большие файлы после удаления из них тэгов? (Что diff про них говорит?)
|
|||
|
||||
LisaST |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 56 Регистрация: 8.4.2006 Где: Munich Репутация: нет Всего: нет |
там такой салат получается, если я беру 2000 строк, то основные различия в posessive case (напр wife wife's ит.п.т.е. ничего критичного), а с файлом в 57000 строк в конце файла уже просто совершенно несоответствующие предложения выводятся, видимо где-то при нормализации происходит сбой
вторая проблема, при унификации для глаголов, в goldstandard есть такие сокращения для гл как be, bed, do, кот. также являются обычными словами англ языка...не будут ли это самые слова , а не теги тоже унифицироватся? еще один вопрос, когда я прогоняю tag-count на 2 других теггерах на тексте из 100 строк (кроме crf, еще на maximum entropy tagger и hidden-markov model tagger), выдается все-время разное кол-во N (из N/Recall/Precision), u nekotoryh nn=200 у другого nn= 500, почему так получается? еще я поменяла NG и NT в tag-count местами, т.к. они были не исправлены -> $_,$N{$_},$N{$_}/$NG{$_}*100,$N{$_}/$NT{$_}*100; прикрепляю часть файла, кот. мне выдал diff для 57000 строк, там будет сложно что-то понять, т.к. формат изменился в другом редакторе (лучше в каком-нибудь kate или kwrite открывать) -------------------------------------- файл не хочет прикрепляться, поэтому в тексте
Это сообщение отредактировал(а) LisaST - 27.3.2007, 14:21 |
|||
|
||||
Feliz |
|
|||
Новичок Профиль Группа: Участник Сообщений: 1 Регистрация: 17.4.2008 Репутация: нет Всего: нет |
Люди, я заранее прошу прощения, как особо одаренный ламер, но можно ли где-нибудь скачать нашу програму-таггер, которая бы определяла части речи в русском тексте и вычисляла их кол-во? И чтоб мне, чайнику, было бы в ней хоть что-то понятно... (это я так... с содраганием смотрю на выши изысканные перлы).
Спасибо. |
|||
|
||||
amg |
|
|||
Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1145 Регистрация: 3.8.2006 Где: Новосибирск Репутация: 38 Всего: 50 |
Feliz, советую Вам спросить у LisaST. Судя по этой теме, она занималась/занимается тестированием различных таггеров. Возможно, у нее есть информация о понимающих русский.
|
|||
|
||||
![]() ![]() ![]() |
Правила форума "Perl" | |
|
Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, korob2001, sharq. |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Perl: Общие вопросы | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |