Модераторы: Daevaorn
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Парсинг таблиц, ClientTable, парсить таблицы модуль ClientTable 
:(
    Опции темы
philosof
Дата 4.4.2007, 05:24 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 6
Регистрация: 27.3.2007

Репутация: 1
Всего: 1



Пр-р-ривет!

Хочу по назвам полей формы, найти записи которые относятся именно к этому полю. 
Например:
на форме есть текстовое поле name, и к нему запись Имя
результат Имя: name
Поскольку, для такой расстановки используються таблици, я работаю з ними, средствами Питона. Исспользовал модуль ClientTable, но на некоторых страницах он выскакивает с ошибками
Traceback (most recent call last):
  File "D:\---P_Y_T_H_O_N--\A_N_A_L_O_G__1PS\ANALOG.py", line 47, in ?
    tables = ClientTable.ParseFile(f_parse,collapse_whitespace=1, strip_tags=False, recode_entities=
None, ignore_errors=False)
  File "C:\Python24\lib\site-packages\ClientTable.py", line 145, in ParseFile
    tp.feed(data)
  File "C:\Python24\lib\HTMLParser.py", line 108, in feed
    self.goahead(0)
  File "C:\Python24\lib\HTMLParser.py", line 150, in goahead
    k = self.parse_endtag(i)
  File "C:\Python24\lib\HTMLParser.py", line 316, in parse_endtag
    self.handle_endtag(tag.lower())
  File "C:\Python24\lib\site-packages\ClientTable.py", line 717, in handle_endtag
    method()
  File "C:\Python24\lib\site-packages\ClientTable.py", line 866, in end_td
    if not self._ps.in_td: self.error(ParseError("end of TD before start"))
  File "C:\Python24\lib\site-packages\ClientTable.py", line 658, in error
    if not self._ignore_errors: raise error
ClientTable.ParseError: end of TD before start

или 

Traceback (most recent call last):
  File "D:\---P_Y_T_H_O_N--\A_N_A_L_O_G__1PS\ANALOG.py", line 47, in ?
    tables = ClientTable.ParseFile(f_parse,collapse_whitespace=1, strip_tags=False, recode_entities=
None, ignore_errors=False)
  File "C:\Python24\lib\site-packages\ClientTable.py", line 145, in ParseFile
    tp.feed(data)
  File "C:\Python24\lib\HTMLParser.py", line 108, in feed
    self.goahead(0)
  File "C:\Python24\lib\HTMLParser.py", line 148, in goahead
    k = self.parse_starttag(i)
  File "C:\Python24\lib\HTMLParser.py", line 262, in parse_starttag
    self.error("junk characters in start tag: %r"
  File "C:\Python24\lib\site-packages\ClientTable.py", line 658, in error
    if not self._ignore_errors: raise error
junk characters in start tag: '\xcd\xe0\xe9\xf2\xe8! name=btnG>'

я пытаюсь их игнорировать ignore_errors=True, но результат для меня плачебный, пропускаеться код который мне нужен. 

Подскажите, подкиньте свежую идейку.
PM MAIL   Вверх
kulibinka
Дата 4.4.2007, 13:01 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 191
Регистрация: 20.11.2006

Репутация: 2
Всего: 4



ничего не понял smile
но по ошибке видно что надо перед обработкой хтмл-страницы с формой подправить ее код.

Это сообщение отредактировал(а) kulibinka - 4.4.2007, 13:03
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Python: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0589 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.