Модераторы: LSD, AntonSaburov
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Хранение большой текстовой информации 
V
    Опции темы
Tony
Дата 22.11.2006, 13:28 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1159
Регистрация: 3.3.2006
Где: Riga

Репутация: нет
Всего: 12



Приветик всем.
Нужно хранить много текстовй информации. Примерно 10000 - 20000 строк в файле. Соответственно нужно искать там текст и вытаскивать всю строку.Вопрос 4то выбрать для максимальной производительности?

Тоесть текcт будет храниться в виде строки так:

...
гфдйгкфгфд гдфг дфг дфг фг дфг 80 91
трертд гфсдфсдфсдфсддфг дфг дфг фг дфг 100 12
...

80 91 - байты специальой информации(80 и 91 есть 2 байта).
Есть 4 варианта как сделать:
1)XML парсить SAX'om
2)Serializacija
3)Обы4ный текстовой файл
4)Файл произвольного доступа.

Это сообщение отредактировал(а) Tony - 22.11.2006, 13:33


--------------------
user posted image
user posted image
PM MAIL Skype   Вверх
Goliath
Дата 22.11.2006, 18:36 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 246
Регистрация: 1.3.2005

Репутация: 1
Всего: 5



Лично я бы выбрал XML, так как по нему проще производить поиск и редактирование, это в случае если не важен размер файла.
--------------------
Наша жизнь растрачивается на мелочи… Упрощайте, упрощайте. [Генри Торо] 
PM MAIL   Вверх
LSD
Дата 22.11.2006, 18:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Leprechaun Software Developer
****


Профиль
Группа: Модератор
Сообщений: 15718
Регистрация: 24.3.2004
Где: Dublin

Репутация: 210
Всего: 538



1. Какого рода поиск? По номеру строки, по подстроке, по слову или фразе и т.п.?
2. Строки в файле могут обновляться/удаляться?


--------------------
Disclaimer: this post contains explicit depictions of personal opinion. So, if it sounds sarcastic, don't take it seriously. If it sounds dangerous, do not try this at home or at all. And if it offends you, just don't read it.
PM MAIL WWW   Вверх
powerOn
Дата 22.11.2006, 20:36 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


software saboteur
****


Профиль
Группа: Участник
Сообщений: 4367
Регистрация: 7.10.2005

Репутация: 47
Всего: 159



Можно еще использовать Embedded Database, типа Apache Derby (которая будет встроена в jdk6)


--------------------
user posted image нет времени думать - нужно писать КОД!

PM MAIL   Вверх
Tony
Дата 22.11.2006, 22:06 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1159
Регистрация: 3.3.2006
Где: Riga

Репутация: нет
Всего: 12



Пока у нас неу jdk6.
1)Данные будут доставаться по поиску подстраки в стоке
2)Обнавлятья и добавляться не будут.


--------------------
user posted image
user posted image
PM MAIL Skype   Вверх
LSD
Дата 23.11.2006, 00:00 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Leprechaun Software Developer
****


Профиль
Группа: Модератор
Сообщений: 15718
Регистрация: 24.3.2004
Где: Dublin

Репутация: 210
Всего: 538



Если поиск будет идти по фразам, то стоит прикрутить сюда полнотекстовый поиск (его можно как к БД прикрутить так и к обычному текстовому файлу).
Если поиск будет по произвольной подстроке, то пожалуй обычный текстовой файл подойдет.


--------------------
Disclaimer: this post contains explicit depictions of personal opinion. So, if it sounds sarcastic, don't take it seriously. If it sounds dangerous, do not try this at home or at all. And if it offends you, just don't read it.
PM MAIL WWW   Вверх
powerOn
Дата 23.11.2006, 00:18 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


software saboteur
****


Профиль
Группа: Участник
Сообщений: 4367
Регистрация: 7.10.2005

Репутация: 47
Всего: 159



Цитата(Tony @  22.11.2006,  22:06 Найти цитируемый пост)
Пока у нас неу jdk6.

Это не обязательно. Скачать Derby всегда можно здесь.

Еще можно посмотреть на проект Apache Lucene - это поисковый движок для текстовой информации основанный на индексировании. ИМХО, как раз для:
Цитата(Tony @  22.11.2006,  22:06 Найти цитируемый пост)
Обнавлятья и добавляться не будут. 

Один раз строится индекс, а дальше поиск идет только по нему. Получается весьма быстро.



--------------------
user posted image нет времени думать - нужно писать КОД!

PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Java"
LSD   AntonSaburov
powerOn   tux
javastic
  • Прежде, чем задать вопрос, прочтите это!
  • Книги по Java собираются здесь.
  • Документация и ресурсы по Java находятся здесь.
  • Используйте теги [code=java][/code] для подсветки кода. Используйтe чекбокс "транслит", если у Вас нет русских шрифтов.
  • Помечайте свой вопрос как решённый, если на него получен ответ. Ссылка "Пометить как решённый" находится над первым постом.
  • Действия модераторов можно обсудить здесь.
  • FAQ раздела лежит здесь.

Если Вам помогли, и атмосфера форума Вам понравилась, то заходите к нам чаще! С уважением, LSD, AntonSaburov, powerOn, tux, javastic.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Java: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0785 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.