Модераторы: LSD, AntonSaburov
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Работа с html, прочитать контент 
:(
    Опции темы
telecom
Дата 14.10.2010, 15:17 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 8
Регистрация: 9.2.2010

Репутация: нет
Всего: нет



Доброго времени суток.
У меня возник такой вопрос, извиняюсь, если не та ветка.

Необходимо прочитать htm файл большого размера (примерно 18mb), т.е. его контент. В этом контенте таблица с кучей строк, так вот необходимо их прочитать, т.е. извлечь данные, а именно заголовок таблицы(названия столбцов) и соответственно данные из строк ....

т.е. возможно, все эти данные "прочитать" либо в таблицу БД или Excel..

Подскажите, пожалуйста, как мне поступить, как это реализовать?

PM MAIL   Вверх
aleksandy
Дата 15.10.2010, 09:22 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 260
Регистрация: 17.12.2006

Репутация: 4
Всего: 5



Парсить исходный код страницы либо вручную, либо регулярными выражениями.
PM   Вверх
kemiisto
Дата 15.10.2010, 09:26 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Дикий Кот. =^.^=
****
Награды: 1



Профиль
Группа: Участник Клуба
Сообщений: 3292
Регистрация: 29.7.2007

Репутация: 5
Всего: 160



Цитата(aleksandy @  15.10.2010,  10:22 Найти цитируемый пост)
либо регулярными выражениями

Парсить HTML регулярными выражениями дозволено только Чаку Норису. smile Надо использовать HTML parser. Тысячи их.

Это сообщение отредактировал(а) kemiisto - 15.10.2010, 09:26


--------------------
PM MAIL WWW GTalk Jabber   Вверх
Nofate
Дата 15.10.2010, 10:20 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 266
Регистрация: 13.10.2008

Репутация: 4
Всего: 8



Вот недавно обсуждали: http://forum.vingrad.ru/forum/topic-309512...y2209674/0.html


--------------------
The future is not set, there is no fate but what we make for ourselves.
Нофейтово пространство и смежные области 
PM MAIL WWW ICQ   Вверх
telecom
Дата 15.10.2010, 13:39 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 8
Регистрация: 9.2.2010

Репутация: нет
Всего: нет



Вот мой код HTML:

Код

<!--Generated by CBOSSrep Report System for report AB-->
<html>
<META http-equiv="Content-Type" content="text/html; charset=utf-8">
<head>
<style> .st1 {border:0pt solid; border-bottom-color:black; border-color:black; border-left-color:black; border-right-color:black; border-top-color:black; color:black; font:normal 400 10pt 'Times New Roman',serif; text-align:left; vertical-align:top; white-space:normal; width:100%}
 .st2 {border-color:black; border-style:solid; border-width:2pt 0pt 1pt; color:black; font:normal 700 14pt 'Arial',sans-serif; margin-bottom:2mm; overflow:hidden; padding:1mm 0mm; text-align:left; vertical-align:top; white-space:normal; width:100%}
 .st3 {border-color:black; border-style:solid; border-width:0pt 0pt 2pt; color:black; font:italic 700 12pt 'Arial',sans-serif; overflow:hidden; padding-bottom:1mm; text-align:right; vertical-align:top; white-space:normal; width:100%}
 .st4 {border:1pt solid black; color:black; font:normal 400 10pt 'Times New Roman',serif; margin-top:2mm; overflow:hidden; text-align:left; vertical-align:top; white-space:normal; width:100%}
 .st5 {background-color:#D4D4D4; border:1pt solid black; color:black; font:normal 700 11pt 'Arial',sans-serif; overflow:hidden; text-align:left; vertical-align:top; white-space:normal}
 .st6 {background-color:#D4D4D4; border:1pt solid black; color:black; font:normal 700 11pt 'Arial',sans-serif; overflow:hidden; text-align:right; vertical-align:top; white-space:normal}
 .st7 {background-color:#D4D4D4; border:1pt solid black; color:black; font:normal 700 11pt 'Arial',sans-serif; overflow:hidden; text-align:center; vertical-align:top; white-space:normal}
 .st8 {border:1pt solid black; color:black; font:normal 400 10pt 'Times New Roman',serif; overflow:hidden; text-align:left; vertical-align:top; white-space:normal}
 .st9 {border:1pt solid black; color:black; font:normal 400 10pt 'Times New Roman',serif; overflow:hidden; text-align:right; vertical-align:top; white-space:normal}
 .st10 {border:1pt solid black; color:black; font:normal 400 10pt 'Times New Roman',serif; overflow:hidden; text-align:center; vertical-align:top; white-space:normal}

A{COLOR: #090; TEXT-DECORATION: none}
BR { line-height:0.2em; }
TABLE { border: none; width:100%}
HEAD, BODY, TH, TR, TD { border: none;  word-wrap: break-word;}
</style>
</head><body style="width:99%" class="st1">
<DIV class="st2">Абоненты в блокировке</DIV>
<DIV class="st3">Внешний вид: Основной;<BR></BR>Фин. регион: 1500 - Гродно ЦПУ, 1501 - Гродно РУЭС, 1511 - Берестовица, 1512 - Волковыск, 1513 - Свислочь, 1514 - Щучин, 1515 - Мосты и другие ...;<BR></BR>Тарифный план: все;<BR></BR>Юр. статус абонента: все;<BR></BR>Метод расчетов: все;<BR></BR>Тип блокировки: принудительная, 3 Комб:принудительная+добровольная, 10 Комб:заключительная+принудительная, 11 Комб:заключительная+принудительная+добровольная, 18 Комб:частичная+принудительная, 19 Комб:частичная+принудительная+добровольная, 26 Комб:частичная+заключительная+принудительная и другие ...;<BR></BR>Биллинговая группа: Контрактные абоненты.</DIV>

<DIV class="st4">
<TABLE cellspacing="0" cellpadding="0" style="border-collapse:collapse;table-layout:fixed;" height="1px">
<COLGROUP>
<COL width="8%"></COL>
<COL width="8%"></COL>
<COL width="8%"></COL>
<COL width="8%"></COL>
<COL width="8%"></COL>
<COL width="8%"></COL>
<COL width="8%"></COL>
<COL width="8%"></COL>
<COL width="8%"></COL>
<COL width="8%"></COL>
<COL width="8%"></COL>
<COL width="12%"></COL>
</COLGROUP>
<TBODY>

<TR>
<TD class="st5">Фин. регион</TD>
<TD class="st5">Тарифный план</TD>
<TD class="st5">Метод расчетов</TD>
<TD class="st5">Юр. статус абонента</TD>
<TD class="st6">Лицевой счет</TD>
<TD class="st5">Номер договора</TD>
<TD class="st5">Внешний код</TD>
<TD class="st7">Дата активации</TD>

<TD class="st5">ФИО/Организация</TD>
<TD class="st5">Тип блокировки</TD>
<TD class="st7">Дата блокировки</TD>
<TD class="st6">Баланс л/с</TD>
</TR>
<TR>
<TD class="st8">1500 - Гродно ЦПУ</TD>
<TD class="st8">Базовый</TD>
<TD class="st8">Авансовый</TD>
<TD class="st8">организация</TD>

<TD class="st9">21296</TD>
<TD class="st8">1500-0001305-08</TD>
<TD class="st8">80342</TD>
<TD class="st10">27-07-2007 11:56:25</TD>
<TD class="st8">ООО "БРМ продукт"</TD>
<TD class="st8">34 Комб:техническая+принудительная</TD>
<TD class="st10">02-09-2010 12:37:27</TD>
<TD class="st9">-4000.00</TD>
</TR>

<TR>
<TD class="st8">1500 - Гродно ЦПУ</TD>
<TD class="st8">Базовый</TD>
<TD class="st8">Авансовый</TD>
<TD class="st8">организация</TD>
<TD class="st9">59502</TD>
<TD class="st8">1500-0003557-08</TD>
<TD class="st8">80619</TD>
<TD class="st10">18-03-2008 10:35:40</TD>

<TD class="st8">ООО "Лигардо"</TD>
<TD class="st8">принудительная</TD>
<TD class="st10">18-06-2010 20:35:44</TD>
<TD class="st9">-3999.99</TD>
</TR>
...............
............
.................
</TR>
</TBODY>
</TABLE>
</DIV>
</body></html>



И как мне из таблицы вытянуть данные?
PM MAIL   Вверх
mantracoder
Дата 15.10.2010, 15:00 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 51
Регистрация: 3.8.2007

Репутация: 1
Всего: 1



Не так давно тоже искал вменяемый парсер для HTML. После нескольких экспериментов выбрал этот:

http://sourceforge.net/projects/nekohtml/

Причины:

1) Дружит с SAX;

2) Быстрый и надежный (проверялось на больших и не валидных HTML страницах);

3) Неплохо документирован.



Это сообщение отредактировал(а) mantracoder - 15.10.2010, 15:02
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Java"
LSD   AntonSaburov
powerOn   tux
javastic
  • Прежде, чем задать вопрос, прочтите это!
  • Книги по Java собираются здесь.
  • Документация и ресурсы по Java находятся здесь.
  • Используйте теги [code=java][/code] для подсветки кода. Используйтe чекбокс "транслит", если у Вас нет русских шрифтов.
  • Помечайте свой вопрос как решённый, если на него получен ответ. Ссылка "Пометить как решённый" находится над первым постом.
  • Действия модераторов можно обсудить здесь.
  • FAQ раздела лежит здесь.

Если Вам помогли, и атмосфера форума Вам понравилась, то заходите к нам чаще! С уважением, LSD, AntonSaburov, powerOn, tux, javastic.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Java: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0816 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.