![]() |
|
![]() ![]() ![]() |
|
RockClimber |
|
|||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 848 Регистрация: 5.5.2006 Где: планета 013 в тен туре Репутация: нет Всего: 15 |
Есть список адресов людей, хранящийся в экселе. Адрес полностью вбит в одну ячейку, причем вводил человек (кредитный инспектор банка) как на душу положит. Адрес выглядит примерно так: "Волгоградская обл., Ленинский р-н, пос. Кукуевка, ул. Маркса д.3, кв. 4".
Задача: разбить адреса по ячейкам: в один столбец - индексы, в другие столбцы - названия городов, улиц, районом, номера домов и квартир и т. п. Задача осложняется тем, что 1) адрес записывает человек, 2) названия улиц и городов могут состоять из нескольких слов (например, "1-я ул. 8-го марта" - есть такая в Москве) 3) как следствие 1) и 2) - очень большое поле для искажения слов "область", "улица", "город" и их сокращений. Я написал небольшой макрос в экселе, он даже распознает все варианты, с которыми я сталкивался... Но постоянно возникает что-то новое, например, недавно попалось: "г. Самара, ул. Г. Димитрова". Здесь первое "г." означает, что дальше идет название города, а второе - это часть названия улицы. Теперь мне надо к макросу присобачить функцию, которая будет отрабатывать такие случаи. Была идея использовать для таких распознаваний нейросети, но я не знаю - будет ли там принципиальное отличие от моего макроса (т. е. не придется ли ее обучать каждому новому элементу, который от предыдущего похожего отличается одним-двумя знаками)? -------------------- Хорошо кинутый дятел далеко летит, крепко встревает, долго торчит. |
|||
|
||||
Ch0bits |
|
|||
![]() Python Dev. ![]() ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 2124 Регистрация: 21.2.2005 Где: Казань Репутация: нет Всего: 62 |
Это задача несвойственная для нейросети. Тут больше распознавание по ключам с помощью нечёткого поиска. Но 100% результата никогда не добиться, а недостоверная информация как известно ничего не стоит и горе такому программисту.
Самое верное решение - на корню прекратить этот бардак! Сделать строгую форму для ввода с фиксированным набором классификаторов (города, улици и т.п.) и проверкой валидности. |
|||
|
||||
Magnifico |
|
||||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 418 Регистрация: 23.1.2008 Где: Московская област ь Репутация: нет Всего: 17 |
нейросеть в данных случаях мертва довольно долго на эту тему экспериментировал
от конечного юзера заполняющего такие данные готовых универсальных алгоритмов нет и предсказать невозмжно
это то же сделать не удается когда база приходит из сторонних источников наладить свой алгоритм на конкретный источник от конкретного получателя, зная его потенциальные ошибки можно правда очень сложно и программа построенная по поиску синонимов должна иметь возможность обучаемости. Разбирать строку надо начиная сначала и с конца (по кол-ву букв , по ключ. словам, по вхождению цифр - вероятных индекса -номера дома- корпуса -квартиры)
опять же сранение с базой синонимов в любом случае даже хороший алгоритм даст 10% ошибок на ручную обработку -------------------- Всё в порядке - спасибо зарядке ! |
||||
|
|||||
RockClimber |
|
|||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 848 Регистрация: 5.5.2006 Где: планета 013 в тен туре Репутация: нет Всего: 15 |
То-то и оно - я никак не властен над источником... Да и заносилось это все давно... Я написал простенькую довольно программу, она худо-бедно распознает. В принципе, при стандартном написании адреса распознаваемость в моей программе - 100%. А дальше возможны варианты... Если названия городов и улиц состоят из нескольких слов и при этом не подписаны (нет слов "ул." и "г."), то начинаются проблемы... У меня есть идеи, как исправить даже большинство самых распространенных ошибок, только времени не хватает. -------------------- Хорошо кинутый дятел далеко летит, крепко встревает, долго торчит. |
|||
|
||||
![]() ![]() ![]() |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Технологии: Разные | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |