Модераторы: korob2001, ginnie
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Разбор адреса 
:(
    Опции темы
infarch
Дата 24.6.2010, 10:29 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 526
Регистрация: 13.3.2009

Репутация: нет
Всего: 1



Не встречался ли кто с модулями позволяющими разбирать адреса. Например строку "г. Москва, ул. В. Пупкина, дом 555, кв.666" надо разложить на город, улицу, дом и квартиру. Следует так-же учитывать что не все адреса написаны в едином стиле. Может отсутствовать точка или запятая, ну и так далее. Я делал такой разборщик, но вижу что много не распознается. Может, есть что либо готовое?
PM MAIL   Вверх
migaro
Дата 28.6.2010, 05:19 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 36
Регистрация: 4.2.2010

Репутация: нет
Всего: нет



Ну покажите что у вас уже есть.. а там и поглядим..  smile 
PM MAIL   Вверх
infarch
Дата 29.6.2010, 10:30 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 526
Регистрация: 13.3.2009

Репутация: нет
Всего: 1



Показывать не буду, а общий принцип могу рассказать. Адрес режется по запятым, а потом каждая часть анализируется по разным признакам. Типа "ул. ...", "пгт ...", "... пр-т" и так далее. Но учитывая криворукость адресописателей этот метод обрабатывает порядка 75 процентов записей. Хотелось бы повысить этот процент smile Возможно сделаю анализ позиции распознаваемой части по ее положению в строке, и поиск нераспознанных частей по базе городов и улиц. Но если такое уже есть, то изобретать велосипед я не хочу.
PM MAIL   Вверх
Suppir
Дата 29.6.2010, 10:40 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 588
Регистрация: 20.4.2009

Репутация: нет
Всего: нет



Это сложная задача. В первую очередь необходимо собрать все возможные варианты адресов.
Если в адресах некоторые части могут переставляться местами, то будет еще веселее.

Не надейтесь найти готовое решение, которое будет распознавать 100% адресов.

Добавлено через 5 минут и 10 секунд
Если не очень торопитесь, могу взяться за эту задачу через два месяца.
Напишу очень точный парсер (есть опыт работы в аналогичных задачах). 
PM MAIL   Вверх
infarch
Дата 29.6.2010, 10:46 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 526
Регистрация: 13.3.2009

Репутация: нет
Всего: 1



А то я не знаю что сложная smile Начал я с того что спарсил с инета пару десятков тысяч разных адресов и на них отлаживал алгоритм. Дня 4 ушло даже на такой процент распознавания.
PM MAIL   Вверх
migaro
Дата 29.6.2010, 10:48 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 36
Регистрация: 4.2.2010

Репутация: нет
Всего: нет



Цитата(Suppir @ 29.6.2010,  10:40)
Если в адресах некоторые части могут переставляться местами, то будет еще веселее.

Не надейтесь найти готовое решение, которое будет распознавать 100% адресов.

Да.. это точно.. Дело в том что адресс можно записать по разному.. Нет единого стандарта для этого.. а если бы и был.. То врятли бы все писали по нему..  smile 
PM MAIL   Вверх
Suppir
Дата 29.6.2010, 10:55 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 588
Регистрация: 20.4.2009

Репутация: нет
Всего: нет



У меня есть парсер, которые распознает заголовки актов органов власти (делит на "орган", "тип документа", "дату", "номер", "название"). Так вот, несмотря на единые стандарты - в каждом регионе, каждый орган власти умудряется писать по-своему.  Набоковы, блин! smile  Этому парсеру уже три года и он используется в нескольких программах, но мне каждую неделю приходится добавлять исключения и изменять существующие правила  smile 

Это сообщение отредактировал(а) Suppir - 29.6.2010, 10:56
PM MAIL   Вверх
infarch
Дата 29.6.2010, 11:27 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 526
Регистрация: 13.3.2009

Репутация: нет
Всего: 1



Цитата(Suppir @ 29.6.2010,  10:40)

Если не очень торопитесь, могу взяться за эту задачу через два месяца.
Напишу очень точный парсер (есть опыт работы в аналогичных задачах).

Спасибо, но я лучше сам поиграюсь smile Это не настолько важно, чтобы привлекать сторонних специалистов.
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Perl"
korob2001
sharq
  • В этом разделе обсуждаются общие вопросы по языку Perl
  • Если ваш вопрос относится к системному программированию, задавайте его здесь
  • Если ваш вопрос относится к CGI программированию, задавайте его здесь
  • Интерпретатор Perl можно скачать здесь ActiveState, O'REILLY, The source for Perl
  • Справочное руководство "Установка perl-модулей", можно скачать здесь


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, korob2001, sharq.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Perl: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0685 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.