Модераторы: pythonwin, Daevaorn
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> поиск фрагмента в html файле 
:(
    Опции темы
Volfs
Дата 31.7.2009, 08:40 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 46
Регистрация: 31.7.2009

Репутация: нет
Всего: нет



Доброе время суток.
Промучившись с питоном несколько дней, решил обратиться за помошью.

Задача такая, имеется файл в формате html содержавший много текста, текст разделен на пункты. Питоновская программа должна взять из файла список пунктов, которые необходимо найти, соотвественно найти и скомпоновать из них новый html файл.
PM MAIL WWW   Вверх
alex_smirnov
Дата 31.7.2009, 16:57 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 194
Регистрация: 22.6.2007
Где: Санкт-Петербург

Репутация: нет
Всего: 4



И вам здравствуйте,
вы от нас готовый код ждете или как?
PM GTalk Jabber   Вверх
Ockonal
Дата 11.8.2009, 00:56 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Smile
*


Профиль
Группа: Участник
Сообщений: 219
Регистрация: 9.7.2007
Где: Ukraine::Nikolaev ;

Репутация: нет
Всего: 3



Как вариант, можно использовать регулярные выражения для вытаскивания пунктов из хтмл. Или использовать штатные средства в питоне по работе с хтмл.
--------------------
Ум заключается не только в знании, но и в умении прилагать знание на деле.Самое лучшее из всех доказательств есть опыт.Каждому человеку свойственно ошибаться, но никому, кроме глупца, несвойственно упорствовать в ошибке.
PM MAIL WWW ICQ Skype GTalk Jabber MSN   Вверх
Lazin
Дата 11.8.2009, 11:24 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 3820
Регистрация: 11.12.2006
Где: paranoid oil empi re

Репутация: нет
Всего: 154



можно воспользоваться библиотекой Beautiful Soup
PM MAIL Skype GTalk   Вверх
W4FhLF
Дата 12.8.2009, 07:47 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


found myself
****


Профиль
Группа: Участник Клуба
Сообщений: 2831
Регистрация: 2.12.2006

Репутация: нет
Всего: 121



Эта библиотека базируется на стандартном HTMLParser'e и падает при малейшем несоответствии html стандарту, а они встречаются на каждом втором сайте. Но может у ТС валидные html. 


--------------------
"Бог умер" © Ницше
"Ницше умер" © Бог
PM ICQ   Вверх
nerezus
Дата 14.8.2009, 14:17 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Вселенский отказник
****


Профиль
Группа: Участник
Сообщений: 3330
Регистрация: 15.6.2005

Репутация: нет
Всего: 43



tidy


--------------------
Сообщество художников Artsociety.ru
PM MAIL WWW   Вверх
mylokin
  Дата 19.8.2009, 10:12 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 6
Регистрация: 19.8.2009

Репутация: нет
Всего: нет



Это надо делать следующим инструментом XPath
Очень удобная библиотека lxml
PM MAIL   Вверх
nerezus
Дата 19.8.2009, 13:15 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Вселенский отказник
****


Профиль
Группа: Участник
Сообщений: 3330
Регистрация: 15.6.2005

Репутация: нет
Всего: 43



mylokin, как бы они для XML, а HTML не XML и не должен им быть даже по стандартам.


--------------------
Сообщество художников Artsociety.ru
PM MAIL WWW   Вверх
Stqs
Дата 20.8.2009, 23:00 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 23
Регистрация: 25.6.2007
Где: Kh

Репутация: нет
Всего: 1



Цитата(W4FhLF @ 12.8.2009,  07:47)
Эта библиотека базируется на стандартном HTMLParser'e и падает при малейшем несоответствии html стандарту, а они встречаются на каждом втором сайте. Но может у ТС валидные html.

да ну прям
нормально он валидирует.
относительно конечно. я бы посоветовал попробовать. в любом случае много времени это не займет
PM MAIL ICQ Skype   Вверх
mylokin
Дата 21.8.2009, 09:50 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 6
Регистрация: 19.8.2009

Репутация: нет
Всего: нет



Цитата(nerezus @ 19.8.2009,  13:15)
mylokin, как бы они для XML, а HTML не XML и не должен им быть даже по стандартам.

вы модуль то видели?
PM MAIL   Вверх
nerezus
Дата 21.8.2009, 11:28 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Вселенский отказник
****


Профиль
Группа: Участник
Сообщений: 3330
Регистрация: 15.6.2005

Репутация: нет
Всего: 43



mylokin, пардон, я обратил внимание только на технологию, пропустив инструмент.


--------------------
Сообщество художников Artsociety.ru
PM MAIL WWW   Вверх
mylokin
Дата 21.8.2009, 15:25 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 6
Регистрация: 19.8.2009

Репутация: нет
Всего: нет



парсир в библиотеке очень удобный, а доступ по xpath элементарен
PM MAIL   Вверх
Google
  Дата 15.12.2019, 02:57 (ссылка)  





  Вверх
  
Ответ в темуСоздание новой темы Создание опроса
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Python: Веб-разработка и фреймворки | Следующая тема »


 




[ Время генерации скрипта: 0.1466 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.