Модераторы: LSD, AntonSaburov
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> как выбрать данные из таблицы файла html, как парсить - well-formed XML 
:(
    Опции темы
indolent
Дата 28.8.2010, 12:43 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 15
Регистрация: 7.5.2007

Репутация: нет
Всего: нет



Здравствуйте! У меня есть файл html, нужно выципить из него одну таблицу и записать ее данные в отделный файл
Код

<tr>
<td><img></td>
<td><a href="INDEX681A.HTM?id=1">ДАННЫЕ</a><br/>
<img>ДАННЫЕ2<br/><img >Данные3
</td>
</tr>

<tr>
<td><img></td>
<td><a href="INDEX681A.HTM?id=2">ДАН</a><br/>
<img>ДАН2<br/><img >Дан3
</td>
</tr>

Как это сделать? как поймать именно ту таблицу, которая мне нужна.. никогда такое не делал.. объясните пжста с примерами..
PM MAIL   Вверх
Nofate
Дата 28.8.2010, 22:12 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 266
Регистрация: 13.10.2008

Репутация: 4
Всего: 8



Отпарсить как xml, выцепить нужные данные. Если таблиц несколько - хорошо бы, чтоб у них айдишники какие-то были.


--------------------
The future is not set, there is no fate but what we make for ourselves.
Нофейтово пространство и смежные области 
PM MAIL WWW ICQ   Вверх
Temdegon
Дата 29.8.2010, 00:26 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 429
Регистрация: 11.10.2008
Где: Minsk

Репутация: 7
Всего: 9



Встроенными средствами джава лучше не парсить html как xml, ибо html в 99% случаев не является валидным xml-документом.
вот тут есть целая пачка парсеров. Выбирайте, что вам больше по душе, и юзайте : http://java-source.net/open-source/html-parsers
Я использовал NekoHTML, с такой задачей он справляется без проблем.
Ну или вообще, если структура данных простая, то можно распарсить обычным регулярным выражением.
PM MAIL   Вверх
indolent
Дата 29.8.2010, 14:10 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 15
Регистрация: 7.5.2007

Репутация: нет
Всего: нет



<td><a href="INDEX681A.HTM?id=1"> --- вот тут айди в начале новых данных везде есть, файл является валидным 100%
парсинг никогда не делал, объясню что не понятно: везде в примерах парсинга xml стоят данные в таком виде
Код

<?xml version="1.0"?>
<company>
<employee>
<firstname>Tom</firstname>
<lastname>Cruise</lastname>
</employee>
<employee>
<firstname>Paul</firstname>
<lastname>Enderson</lastname>
</employee>
<employee>
<firstname>George</firstname>
<lastname>Bush</lastname>
</employee>
</company>


в моем же случае   <employee> --- это <table border="0"...> 
тут данные отделены фестнейм и ластнейм, а у меня картинками и ссылкой<a href="INDEX681A.HTM?id=1
таблицы ничем не примечательны и встречаются во всем документе..как их выделить?
PM MAIL   Вверх
Sibit
Дата 30.8.2010, 06:12 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 96
Регистрация: 6.10.2009
Где: NSK

Репутация: нет
Всего: 1



Тогда разбери документ просто на таблицы, а потом ищи в них нужные тебе. Или подробнее объясни в чем сложность. FAQ смотрел же? Плюс, на валидность HTML я бы тоже не надеялся(если конечно не ты сам его генеришь, но тогда откуда проблемы с id?).
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Java"
LSD   AntonSaburov
powerOn   tux
javastic
  • Прежде, чем задать вопрос, прочтите это!
  • Книги по Java собираются здесь.
  • Документация и ресурсы по Java находятся здесь.
  • Используйте теги [code=java][/code] для подсветки кода. Используйтe чекбокс "транслит", если у Вас нет русских шрифтов.
  • Помечайте свой вопрос как решённый, если на него получен ответ. Ссылка "Пометить как решённый" находится над первым постом.
  • Действия модераторов можно обсудить здесь.
  • FAQ раздела лежит здесь.

Если Вам помогли, и атмосфера форума Вам понравилась, то заходите к нам чаще! С уважением, LSD, AntonSaburov, powerOn, tux, javastic.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Java: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0731 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.