Модераторы: Illuminaty
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Скрапинг-сервис, https://diggernaut.com 
:(
    Опции темы
dfire
Дата 20.7.2016, 01:42 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 30.8.2007

Репутация: нет
Всего: нет



Старт-ап потихоньку перешёл в стадию alpha теста и хотелось бы найти грамотный народ для тестирования.
Сервис предлагает возможности преобразования сайтов в датасеты с последующей пост-обработкой и выдачей данных напрямую или API.
Ключевой момент сервиса - наличие специального инструмента под браузер Google Chrome, с помощью которой можно реально очень быстро забирать нужное с сайтов, кликая мышкой и составляя сценарий. Знание языков программирования при этом не требуется. Для более продвинутых, в глубине есть специальный мета-язык (с YAML разметкой), который описывает сценарии забора и преобразования данных, с очень гибкой настройкой.
Прототип языка и движка успешно работает в другом проекте уже более года, перелопатив за это время несколько тысяч различных сайтов.
Предоставляется возможность запуска сценариев по расписанию.

Что ожидается от процесса тестирования:
- ваши мысли о всём, что связано с сервисом ("идея отстой, никогда не окупится", "сайт ###, всё переделать нахер" тоже принимаются, но только в паре с конкретными предложениями и строго по-делу)
- с интерфейсом сайта
- с интерфейсом инструмента для браузера
- юзабилити
- проблемы с составлением сценариев к конкретным сайтам (да, капчи обходить умеем, но такой функционал пока не предоставляем)
- ловля багов которые мы еще не поймали
- предложения по мега-турбо-кунгфу-улучшайзингу

Что предлагаем взамен:
В зависимости от степени участия бесплатно один из двух тарифных планов (X-Small или Small) с полугодовой подпиской. Торг уместен.

В настоящий момент система регистрации отключена, если есть желание принять участие в альфа-тестировании, прошу указать емейл адрес, на который будет высланы регистрационные данные.
В сервис встроена система поддержки, можете делиться вашими мыслями через чат или тикетную систему.
Мы с радостью дадим саркастические ответы на ваши вопросы, проигнорируем тикеты и вместе пошутим над предложениями (разумеется это шутка smile

PS: Прошу учесть, это лишь alpha-test, со всеми вытекающими.

Это сообщение отредактировал(а) dfire - 20.7.2016, 01:43
PM MAIL   Вверх
dfire
Дата 4.9.2016, 18:50 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 30.8.2007

Репутация: нет
Всего: нет



Вышли в бету, доступна регистрация и прочие плюшки.
PM MAIL   Вверх
dfire
Дата 10.10.2016, 23:59 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 30.8.2007

Репутация: нет
Всего: нет



Прикрутили новую плюшку, теперь парсеры можно компилировать под нужную вам платформу и получать исполняемый файл, который никак не связан с сервисом и может быть выполнен в вашей среде. Вывод с таких парсеров идёт в базу, в файл (разные форматы) или просто в stdout.
PM MAIL   Вверх
CompWorm
Дата 11.10.2016, 00:11 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Допеределыватель
***


Профиль
Группа: Участник Клуба
Сообщений: 1689
Регистрация: 6.12.2004
Где: /

Репутация: 1
Всего: 31



почитал тебя, почитал сайт, так и не понял зачем нужно выкачивать к себе интернет...
для этого какбэ поисковики есть... это типа Web crawler?
приведи пару юз-кейсов пожалуйста.


--------------------
PM MAIL   Вверх
dfire
Дата 11.10.2016, 12:26 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 30.8.2007

Репутация: нет
Всего: нет



Цитата(CompWorm @ 11.10.2016,  00:11)
так и не понял зачем нужно выкачивать к себе интернет...

smile

Нет, это не вебкраулер. Это сервис для запуска парсеров, когда людям нужно забрать какие то данные с определённого сайта и получить их в виде структурированых данных в нужном формате или через API.
Я приведу типичные юзкейсы, которые можно решить с помощью нашего сервиса:

К примеру у меня есть интернет магазин, поставщик присылает каталог (файл excel) раз в месяц, а у себя на сайте делает апдейт едва ли не каждый день, и вот никак с ним договориться не получается, что бы он присылал файл почаще. Под этот случай написан конфиг парсера, который ходит пару раз в неделю по сайту поставщика и собирает данные, которые я затем получаю в нужном мне формате Excel. И соответственно имею апдейт товара в своём магазине регулярно.

Другой пример, мне нужно делать ежемесячный отчёт перед начальством, куда входит информация по судебному делопроизводству, часть этой информации я каждый месяц копирую с сайта обл.суда, информация в публичном доступе. Делаю я это руками, убиваю на всё про всё почти целый день. Написав парсер и запуская его по расписанию в Diggernaut, я получаю эти данные автоматически, к нужному мне сроку и экономлю своё время.

Еще юзкейс. Я риелтор, собираю информацию с нескольких сайтов недвижимости каждый день. Заказал написание парсеров у сервиса Diggernaut, посчитали трафик, получилось ежемесячно чуть более 13 Гигов. Это подходит под тарифный план Medium за $59.99 в месяц. Для меня, на нынешнем этапе, дороговато. Все парсеры мне скомпилировали под windows, теперь я могу запускать их у себя на компьютере и получать нужную мне информацию без ежемесячной абонентки сервиса. Не совсем правда удобно, потому что нужно запускать каждый день и каждый файл руками, а их у меня уже более десятка сейчас и будет больше, потому что сайтов для данных мне нужно больше.

Я привёл реальные юзкейсы, которые уже встречались в работе сервиса.
Надеюсь это помогло понять для чего он нужен smile
PM MAIL   Вверх
CompWorm
Дата 11.10.2016, 23:51 (ссылка) |    (голосов:1) Загрузка ... Загрузка ... Быстрая цитата Цитата


Допеределыватель
***


Профиль
Группа: Участник Клуба
Сообщений: 1689
Регистрация: 6.12.2004
Где: /

Репутация: 1
Всего: 31



наверно стоит добавить эти примеры на сайт для таких как я. если это реальные примеры, можно оформить как историю успеха.

я от менеджмента человек далёкий, и прибыльность вашего проекта оценить не смогу, но какбэ с моей колокольни, такими отчётами и похожей разноплановой рутиной обычно занимаются менеджеры низшего звена... я имел честь в начале рабочей карьеры исполнять похожие задания при помощи всяких скриптов и авто-кликеров. в общем-то студентов на пол ставки и держат, чтоб не покупать узконаправленный софт, ибо студент за копейку может разную работу делать.

Быть может есть компании, перепахивающие неодолимый для студента объём данных с публичных сервисов, но я персонально стакими случаями незнаком...


--------------------
PM MAIL   Вверх
dfire
Дата 12.10.2016, 02:09 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 30.8.2007

Репутация: нет
Всего: нет



Цитата(CompWorm @ 11.10.2016,  23:51)
наверно стоит добавить эти примеры на сайт для таких как я. если это реальные примеры, можно оформить как историю успеха.
Спасибо за предложение, мы так и сделаем smile

Цитата(CompWorm @ 11.10.2016,  23:51)
Быть может есть компании, перепахивающие неодолимый для студента объём данных с публичных сервисов, но я персонально стакими случаями незнаком..
Часть нашей команды работала в трёх таких компаниях на протяжении 5 лет. Во всех был штат программистов на perl, python, ruby, которые перепахивали данные с различных источников, включая PDF, Excel, почту, web, базы и т.д. и сводили в единые структуры. Собственно наш сервис вылился из этого, как попытка обобщить весь накопленый опыт и дать возможность другим решать рутиные задачи легче и проще.
PM MAIL   Вверх
CompWorm
Дата 12.10.2016, 02:16 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Допеределыватель
***


Профиль
Группа: Участник Клуба
Сообщений: 1689
Регистрация: 6.12.2004
Где: /

Репутация: 1
Всего: 31



я тоже знаком с программистом на VB, который конкретно нанят перепахивать клиентскую нуменклатуру в корпоративный стандарт... но я как то не заметил, что ваш софт типа швейцарского ножа может данные не только с сайтов, но и со офисных файлов и сканов... вот коль так сделаете, наверно будут покупать, а пока узковат профиль у вас - только сайты.


--------------------
PM MAIL   Вверх
dfire
Дата 12.10.2016, 14:08 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 30.8.2007

Репутация: нет
Всего: нет



Цитата(CompWorm @ 12.10.2016,  02:16)
но я как то не заметил, что ваш софт типа швейцарского ножа может данные не только с сайтов, но и со офисных файлов и сканов... вот коль так сделаете, наверно будут покупать, а пока узковат профиль у вас - только сайты.
Да, в настоящий момент только веб, по остальным видам источников работа уже ведётся.
PM MAIL   Вверх
dfire
Дата 23.11.2016, 16:57 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 30.8.2007

Репутация: нет
Всего: нет



Появилась статья, которая показывает как можно использовать специальный meta-язык для описания сценариев парсеров. Ознакомиться можно здесь.
PM MAIL   Вверх
dfire
Дата 26.12.2017, 16:38 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 30.8.2007

Репутация: нет
Всего: нет



Сервис стал доступен полностью на русском языке.
Так же доступна документация и блог.
PM MAIL   Вверх
vadik25
Дата 2.8.2018, 18:21 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 5.7.2016

Репутация: нет
Всего: нет



Тема в наше время очень актуальна. Спасибо за интересную информацию.
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Веб-разработка, идеи, проектирование"
Illuminaty
dr.ZmeY

1. Прежде чем поучаствовать в дискуссиях, пожалуйста, перечитайте правила нашего форума. Воспользуйтесь поиском прежде чем создавать новую тему, возможно, Ваш вопрос уже обсуждают. Модератор имеет право удалять или обьединять дублирующиеся темы.

2. В этом разделе проводится обсуждение дизайна готовых сайтов, рабочих web-проектов, web-макетов, а также сами идеи и перспективы ресурсов.

3. Обсуждение отдельных элементов (логотипов, баннеров, анимации и т.п.) проводится здесь

4. В разделе запрещается

   а) предлагать на обсуждение форумы, чаты, гостевые книги, имеющие стандартный движок без собственного дизайнерского оформления;

   б) рекламировать какой-либо проект;

   в) предлагать купить web-проект, работу, модераторство, зарегистрироваться в разделах web-ресурса;

   г) спрашивать о возможной стоимости проекта.

Указанные сообщения будут удаляться без предупреждения(!)

5. При создании новой темы (обсуждение конкретного ресурса) необходимо указать: в названии темы - название вашего проекта, в описании темы - адрес, в топике - вопрос и ссылку

6. Все сообщения, касаемые критики сайта, не содержащие какие-либо собственные предложения будут удаляться!


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, Illuminaty, dr.ZmeY.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Стартапы, проекты, идеи | Следующая тема »


 




[ Время генерации скрипта: 0.1359 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.