![]() |
Модераторы: Daevaorn |
![]() ![]() ![]() |
|
Volfs |
|
|||
Новичок Профиль Группа: Участник Сообщений: 46 Регистрация: 31.7.2009 Репутация: нет Всего: нет |
Доброе время суток.
Промучившись с питоном несколько дней, решил обратиться за помошью. Задача такая, имеется файл в формате html содержавший много текста, текст разделен на пункты. Питоновская программа должна взять из файла список пунктов, которые необходимо найти, соотвественно найти и скомпоновать из них новый html файл. |
|||
|
||||
alex_smirnov |
|
|||
Бывалый ![]() Профиль Группа: Участник Сообщений: 194 Регистрация: 22.6.2007 Где: Санкт-Петербург Репутация: нет Всего: 4 |
И вам здравствуйте,
вы от нас готовый код ждете или как? |
|||
|
||||
Ockonal |
|
|||
![]() Smile ![]() Профиль Группа: Участник Сообщений: 219 Регистрация: 9.7.2007 Где: Ukraine::Nikolaev ; Репутация: нет Всего: 3 |
Как вариант, можно использовать регулярные выражения для вытаскивания пунктов из хтмл. Или использовать штатные средства в питоне по работе с хтмл.
--------------------
Ум заключается не только в знании, но и в умении прилагать знание на деле.Самое лучшее из всех доказательств есть опыт.Каждому человеку свойственно ошибаться, но никому, кроме глупца, несвойственно упорствовать в ошибке. |
|||
|
||||
Lazin |
|
|||
![]() Эксперт ![]() ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 3820 Регистрация: 11.12.2006 Где: paranoid oil empi re Репутация: нет Всего: 154 |
можно воспользоваться библиотекой Beautiful Soup
|
|||
|
||||
W4FhLF |
|
|||
![]() found myself ![]() ![]() ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 2831 Регистрация: 2.12.2006 Репутация: нет Всего: 121 |
Эта библиотека базируется на стандартном HTMLParser'e и падает при малейшем несоответствии html стандарту, а они встречаются на каждом втором сайте. Но может у ТС валидные html.
-------------------- "Бог умер" © Ницше "Ницше умер" © Бог |
|||
|
||||
nerezus |
|
|||
![]() Вселенский отказник ![]() ![]() ![]() ![]() Профиль Группа: Участник Сообщений: 3330 Регистрация: 15.6.2005 Репутация: нет Всего: 43 |
tidy
|
|||
|
||||
mylokin |
|
|||
Новичок Профиль Группа: Участник Сообщений: 6 Регистрация: 19.8.2009 Репутация: нет Всего: нет |
||||
|
||||
nerezus |
|
|||
![]() Вселенский отказник ![]() ![]() ![]() ![]() Профиль Группа: Участник Сообщений: 3330 Регистрация: 15.6.2005 Репутация: нет Всего: 43 |
mylokin, как бы они для XML, а HTML не XML и не должен им быть даже по стандартам.
|
|||
|
||||
Stqs |
|
|||
Новичок Профиль Группа: Участник Сообщений: 23 Регистрация: 25.6.2007 Где: Kh Репутация: нет Всего: 1 |
да ну прям нормально он валидирует. относительно конечно. я бы посоветовал попробовать. в любом случае много времени это не займет |
|||
|
||||
mylokin |
|
|||
Новичок Профиль Группа: Участник Сообщений: 6 Регистрация: 19.8.2009 Репутация: нет Всего: нет |
вы модуль то видели? |
|||
|
||||
nerezus |
|
|||
![]() Вселенский отказник ![]() ![]() ![]() ![]() Профиль Группа: Участник Сообщений: 3330 Регистрация: 15.6.2005 Репутация: нет Всего: 43 |
mylokin, пардон, я обратил внимание только на технологию, пропустив инструмент.
|
|||
|
||||
mylokin |
|
|||
Новичок Профиль Группа: Участник Сообщений: 6 Регистрация: 19.8.2009 Репутация: нет Всего: нет |
парсир в библиотеке очень удобный, а доступ по xpath элементарен
|
|||
|
||||
![]() ![]() ![]() |
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Python: Веб-разработка и фреймворки | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |