Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Распознавание почтовых адресов, Можно ли подключить нейросеть 
:(
    Опции темы
RockClimber
Дата 14.4.2008, 13:26 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 848
Регистрация: 5.5.2006
Где: планета 013 в тен туре

Репутация: нет
Всего: 15



Есть список адресов людей, хранящийся в экселе. Адрес полностью вбит в одну ячейку, причем вводил человек (кредитный инспектор банка) как на душу положит. Адрес выглядит примерно так: "Волгоградская обл., Ленинский р-н, пос. Кукуевка, ул. Маркса д.3, кв. 4".
Задача: разбить адреса по ячейкам: в один столбец - индексы, в другие столбцы - названия городов, улиц, районом, номера домов и квартир и т. п.
Задача осложняется тем, что 
1) адрес записывает человек, 
2) названия улиц и городов могут состоять из нескольких слов (например, "1-я ул. 8-го марта" - есть такая в Москве)
3) как следствие 1) и 2) - очень большое поле для искажения слов "область", "улица", "город" и их сокращений.

Я написал небольшой макрос в экселе, он даже распознает все варианты, с которыми я сталкивался... Но постоянно возникает что-то новое, например, недавно попалось: "г. Самара, ул. Г. Димитрова". Здесь первое "г." означает, что дальше идет название города, а второе - это часть названия улицы. Теперь мне надо к макросу присобачить функцию, которая будет отрабатывать такие случаи.

Была идея использовать для таких распознаваний нейросети, но я не знаю - будет ли там принципиальное отличие от моего макроса (т. е. не придется ли ее обучать каждому новому элементу, который от предыдущего похожего отличается одним-двумя знаками)?


--------------------
Хорошо кинутый дятел далеко летит, крепко встревает, долго торчит.
PM MAIL GTalk   Вверх
Ch0bits
Дата 23.4.2008, 20:26 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Python Dev.
****


Профиль
Группа: Завсегдатай
Сообщений: 2124
Регистрация: 21.2.2005
Где: Казань

Репутация: нет
Всего: 62



Это задача несвойственная для нейросети. Тут больше распознавание по ключам с помощью нечёткого поиска. Но 100% результата никогда не добиться, а недостоверная информация как известно ничего не стоит и горе такому программисту.

Самое верное решение - на корню прекратить этот бардак! Сделать строгую форму для ввода с фиксированным набором классификаторов (города, улици и т.п.) и проверкой валидности.

PM WWW   Вверх
Magnifico
Дата 10.5.2008, 16:55 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 418
Регистрация: 23.1.2008
Где: Московская област ь

Репутация: нет
Всего: 17



нейросеть в данных случаях мертва довольно долго  на эту тему экспериментировал
от конечного юзера заполняющего такие данные готовых универсальных алгоритмов нет и предсказать невозмжно
Цитата

 Сделать строгую форму для ввода с фиксированным набором классификаторов (города, улици и т.п.) и проверкой валидности.

это то же сделать не удается когда база  приходит из сторонних источников

наладить свой алгоритм на конкретный источник от конкретного получателя, зная его потенциальные ошибки можно
правда очень сложно и программа построенная по поиску синонимов должна иметь  возможность обучаемости.

Разбирать строку надо начиная сначала и с конца (по кол-ву букв , по ключ. словам, по вхождению цифр - вероятных
индекса -номера дома- корпуса -квартиры)
Цитата

очень большое поле для искажения слов "область", "улица", "город" и их сокращений.

опять же сранение с базой синонимов
в любом случае даже хороший алгоритм даст 10% ошибок  на ручную обработку


--------------------
Всё  в  порядке   -   спасибо  зарядке  !
PM MAIL   Вверх
RockClimber
Дата 24.5.2008, 17:41 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 848
Регистрация: 5.5.2006
Где: планета 013 в тен туре

Репутация: нет
Всего: 15



Цитата(Magnifico @  10.5.2008,  16:55 Найти цитируемый пост)
это то же сделать не удается когда база  приходит из сторонних источников

То-то и оно - я никак не властен над источником... Да и заносилось это все давно... Я написал простенькую довольно программу, она худо-бедно распознает.
В принципе, при стандартном написании адреса распознаваемость в моей программе - 100%. А дальше возможны варианты... Если названия городов и улиц состоят из нескольких слов и при этом не подписаны (нет слов "ул." и "г."), то начинаются проблемы... У меня есть идеи, как исправить даже большинство самых распространенных ошибок, только времени не хватает.


--------------------
Хорошо кинутый дятел далеко летит, крепко встревает, долго торчит.
PM MAIL GTalk   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Технологии: Разные | Следующая тема »


 




[ Время генерации скрипта: 0.0776 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.