Модераторы: LSD
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> субд для подсчета частоты использования слов 
:(
    Опции темы
mrgloom
Дата 27.1.2012, 11:14 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



задача
есть сайт с постоянно меняющимся текстовым контентом
ну допустим я его распарсил на отдельные слова
затем мне надо подсчитать какие слова сколько раз используются и накопить так за несколько суток статистику.
возможно надо считать за одно слово слова в разном падеже(но это скорее вопрос к парсеру)
и возможно надо не только слова определять, но и часто используемые фразы.
или например вывести все фразы в которых наиболее часто использовалось данное слово.

нужно ли для этого субд? даст ли прирост по поиску?
 или подойдет это просто хранить скажем в памяти (система 8Гб), а если переполнение или при выключении программы сохранять в простой файл
 аля слово и его частота тупо в текстовый файл.
PM MAIL   Вверх
Данкинг
Дата 27.1.2012, 11:50 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Yersinia pestis
****


Профиль
Группа: Завсегдатай
Сообщений: 8302
Регистрация: 7.11.2006
Где: მოსკოვი

Репутация: нет
Всего: 130



Я бы в таблице и хранил. Понятно, что запросом подсчёт будет осуществляться быстрее, чем самодельная процедура поиска слов в текстовом файле.


--------------------
There's nothing left but silent epitaphs.
PM MAIL WWW   Вверх
mrgloom
Дата 27.1.2012, 14:38 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



дело в том, что если использовать только слова, то да, можно хранить в бинарном файле например сортированном по алфавиту, ну или каким либо еще методом чтобы поиск элемента и добавление элемента происходили быстрее всего.

а если есть предложения и связи между словами, то уже всё сложнее это что то типa data mining. и как всё это организовать я не очень представляю.

Это сообщение отредактировал(а) mrgloom - 27.1.2012, 14:38
PM MAIL   Вверх
Zloxa
Дата 27.1.2012, 16:00 (ссылка) |    (голосов:1) Загрузка ... Загрузка ... Быстрая цитата Цитата


Чо?
****


Профиль
Группа: Завсегдатай
Сообщений: 3473
Регистрация: 12.9.2008

Репутация: 11
Всего: 161



mrgloom, совершенно безразлично как хранить данные, если не ясно как их следует использовать. О том, как будет использована накопленная вами статистика, вы ни разу не обмолвились.


--------------------
Достоверно известно, что 89% людей доверяют статистике взятой с потолка smile
PM   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Общие вопросы по базам данных"
LSD
Zloxa

Данный форум предназначен для обсуждения вопросов о базах данных не попадающих под тематику других форумов:

  • вопросам по СУБД для которых нет отдельных подфорумов
  • вопросам которые затрагивают несколько разных СУБД (например проблема выбора)
  • инструменты для работы с СУБД
  • вопросы проектирования БД
  • теоретически вопросы о СУБД

Данный форум не предназначен для:

  • вопросов о поиске разлиных БД (если не понимаете чем БД отличается от СУБД то: а) вам не сюда; б) Google в помощь)
  • обсуждения проблем с доступом к СУБД из различных ЯП (для этого есть соответсвующие форумы по каждому ЯП)
  • обсуждения проблем с написание SQL запросов, для этого есть форум Составление SQL-запросов
  • просьб о написании курсовой, реферата и т.п., для этого есть Центр помощи или фриланс биржа
  • объявлений о найме специалистов, для этого есть раздел Объявления о найме специалистов

Если вы не соблюдаете эти правила, не удивляйтесь потом не найдя свою тему/сообщение. ;)


Полезные советы:

При написании сообщения постарайтесь дать теме максимально понятное название. В теме максимально подробно опишите проблему. Если применимо укажите: название базы данных и версии (MySQL 4.1, MS SQL Server 2000 и т.п.); используемых язык программирования; способа доступа (ADO, BDE и т.д.); сообщения об ошибках.

Для вставки кода используйте теги [code=sql] [/code].

Литературу по базам данных можно поискать здесь.

Действия модераторов можно обсудить здесь.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, LSD, Zloxa.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | СУБД, общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0676 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.