Модераторы: LSD
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> хранение и выбор xml данных 
:(
    Опции темы
isergey
Дата 25.1.2010, 15:39 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 30
Регистрация: 28.5.2008

Репутация: нет
Всего: нет



Задача: организация  хранения и поиск по нечетко струкутированной информации.
В общем виде он выглядит так:
Код

<record>
        <leader>00834nw   2200193n  4500</leader>
        <controlfield tag="001">CF 91000008</controlfield>
        <controlfield tag="003">DLC</controlfield>
        <controlfield tag="005">19960528091722.0</controlfield>
        <controlfield tag="008">910215acaaaaaa</controlfield>
        <datafield tag="010" ind1=" " ind2=" ">
            <subfield code="a">CF 91000008</subfield>
        </datafield>
        <datafield tag="040" ind1=" " ind2=" ">
            <subfield code="a">DLC</subfield>
            <subfield code="c">DLC</subfield>
        </datafield>
        <datafield tag="084" ind1="0" ind2=" ">
            <subfield code="a">lcc</subfield>
        </datafield>
        <datafield tag="153" ind1=" " ind2=" ">
            <subfield code="a">HF1</subfield>
            <subfield code="c">HF6182</subfield>
            <subfield code="j">Commerce</subfield>
        </datafield>
        <datafield tag="453" ind1="0" ind2=" ">
            <subfield code="w">j</subfield>
            <subfield code="a">HT684.22</subfield>
            <subfield code="h">Communities.  Classes.  Races</subfield>
            <subfield code="h">Classes</subfield>
            <subfield code="h">Classes arising from occupation</subfield>
            <subfield code="h">Middle class</subfield>
            <subfield code="j">Commercial</subfield>
        </datafield>
        <datafield tag="553" ind1="0" ind2=" ">
            <subfield code="w">j</subfield>
            <subfield code="a">HE380.8</subfield>
            <subfield code="c">HE560</subfield>
            <subfield code="h">Transportation and communications</subfield>
            <subfield code="h">Water transportation</subfield>
            <subfield code="j">Waterways</subfield>
            <subfield code="t">commerce</subfield>
        </datafield>
        <datafield tag="553" ind1="0" ind2=" ">
            <subfield code="w">l</subfield>
            <subfield code="a">HE1</subfield>
            <subfield code="c">HE9900</subfield>
            <subfield code="j">Transportation and communications</subfield>
            <subfield code="t">Commerce</subfield>
        </datafield>
        <datafield tag="553" ind1="0" ind2=" ">
            <subfield code="w">l</subfield>
            <subfield code="a">HE561</subfield>
            <subfield code="c">HE971</subfield>
            <subfield code="h">Transportation and communications</subfield>
            <subfield code="h">Water transportation</subfield>
            <subfield code="j">Shipping</subfield>
            <subfield code="t">Commerce</subfield>
        </datafield>
        <datafield tag="553" ind1="0" ind2=" ">
            <subfield code="w">l</subfield>
            <subfield code="a">GT6010</subfield>
            <subfield code="c">GT6060</subfield>
            <subfield code="h">Manners and customs (General)</subfield>
            <subfield code="h">Customs relative to special classes.  By occupation</subfield>
            <subfield code="j">Commercial occupations</subfield>
            <subfield code="t">Commerce</subfield>
        </datafield>
        <datafield tag="753" ind1=" " ind2=" ">
            <subfield code="a">Commerce</subfield>
        </datafield>
    </record>

Т.е. как видно, datafield tag="553" может повторяться сколь угодно. Вопрос, как осуществлять поиск по этому XML в РДБ. Я пробовал хранить 12000 таких записей в MySQL и делать выборку через XPATH, но этот процесс выполнялся около секунды, что совершенно не подходит для задачи. Как можно ускорить обработку XML данных (в различных БД, желательно свободных), какие индексы использовать (можно ли индексировать отдельные ноды?). Заранее благодарю!

Это сообщение отредактировал(а) isergey - 25.1.2010, 15:43
PM MAIL   Вверх
LSD
Дата 25.1.2010, 15:46 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Leprechaun Software Developer
****


Профиль
Группа: Модератор
Сообщений: 15718
Регистрация: 24.3.2004
Где: Dublin

Репутация: 24
Всего: 538



Цитата(isergey @  25.1.2010,  15:39 Найти цитируемый пост)
но этот процесс выполнялся около секунды, что совершенно не подходит для задачи

Ну нефига себе, секунда это долго?

В принципе если XPath известен заранее, можно попробовать создать функциональный индекс по этому XPath.

Добавлено через 40 секунд
Или даже просто отдельную колонку с закэшированным вычисленным значением этого XPath.


--------------------
Disclaimer: this post contains explicit depictions of personal opinion. So, if it sounds sarcastic, don't take it seriously. If it sounds dangerous, do not try this at home or at all. And if it offends you, just don't read it.
PM MAIL WWW   Вверх
isergey
Дата 25.1.2010, 15:59 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 30
Регистрация: 28.5.2008

Репутация: нет
Всего: нет



Расчетное количество хранимых документов несколько сотен тысяч. Т.е. выборка без индексов займет несколько десятков секунд. Вариант с колонками тоже не подходит.
Есть инструмент zebra2 от indexdata.com, с этой проблемой он справляется на раз (моментальная выдача результата), единственный минус, обновлять удалять добавлять записи крайне неудобно.

Это сообщение отредактировал(а) isergey - 25.1.2010, 16:52
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Общие вопросы по базам данных"
LSD
Zloxa

Данный форум предназначен для обсуждения вопросов о базах данных не попадающих под тематику других форумов:

  • вопросам по СУБД для которых нет отдельных подфорумов
  • вопросам которые затрагивают несколько разных СУБД (например проблема выбора)
  • инструменты для работы с СУБД
  • вопросы проектирования БД
  • теоретически вопросы о СУБД

Данный форум не предназначен для:

  • вопросов о поиске разлиных БД (если не понимаете чем БД отличается от СУБД то: а) вам не сюда; б) Google в помощь)
  • обсуждения проблем с доступом к СУБД из различных ЯП (для этого есть соответсвующие форумы по каждому ЯП)
  • обсуждения проблем с написание SQL запросов, для этого есть форум Составление SQL-запросов
  • просьб о написании курсовой, реферата и т.п., для этого есть Центр помощи или фриланс биржа
  • объявлений о найме специалистов, для этого есть раздел Объявления о найме специалистов

Если вы не соблюдаете эти правила, не удивляйтесь потом не найдя свою тему/сообщение. ;)


Полезные советы:

При написании сообщения постарайтесь дать теме максимально понятное название. В теме максимально подробно опишите проблему. Если применимо укажите: название базы данных и версии (MySQL 4.1, MS SQL Server 2000 и т.п.); используемых язык программирования; способа доступа (ADO, BDE и т.д.); сообщения об ошибках.

Для вставки кода используйте теги [code=sql] [/code].

Литературу по базам данных можно поискать здесь.

Действия модераторов можно обсудить здесь.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, LSD, Zloxa.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | СУБД, общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0604 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.