Модераторы: LSD, AntonSaburov

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Анализ сайта, например название страницы 
:(
    Опции темы
Berliner
Дата 20.12.2005, 13:11 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 803
Регистрация: 18.5.2005

Репутация: 1
Всего: 2



Подскажите пожалуста как проанализировать сайт(например найти букву к на странице).Меня интересует как можно сделать с помощью стандартных средств Java. Без сторонних библиотек. Паралельно пытаюсь разобраться C PAth запросами.Но сейчас меня интересует именно простейший пример стандартными средствами Java
PM   Вверх
3,14
Дата 20.12.2005, 14:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Участник Клуба
Сообщений: 1614
Регистрация: 18.6.2004
Где: Н. Новгород

Репутация: 6
Всего: 24



Цитата(Berliner @ 20.12.2005, 13:11)
(например найти букву к на странице)

Код

String.indexOf("k");



--------------------
Может быть, это только мой бред,
Может быть, жизнь не так хороша,
Может быть, я не выйду на свет,
Но я летал, когда пела душа...
PM MAIL   Вверх
Berliner
Дата 20.12.2005, 16:49 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 803
Регистрация: 18.5.2005

Репутация: 1
Всего: 2



Спасиб за ответ!
А вообще как обычно анализируют страницы - с помощью чего? поясните мне плиз. Я хочу учить парвильные вещи что востребовано
PM   Вверх
sragio
Дата 20.12.2005, 16:56 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 18
Регистрация: 26.4.2005

Репутация: нет
Всего: 1



Посмотри в сторону регулярных выражений - regexp.
PM MAIL   Вверх
Berliner
Дата 26.12.2005, 20:09 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 803
Регистрация: 18.5.2005

Репутация: 1
Всего: 2



Может кто нить с кодом поможет как например с помощью String.indexOf("k"); найти на веб странице букву к и вывести сообщение нашел к!
Этот задание более учебное, и никак не коммерческое. Пытаюсь писать маленькие програмки на Java!
PM   Вверх
lovermann
Дата 27.12.2005, 03:27 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 285
Регистрация: 28.12.2004
Где: Прага

Репутация: нет
Всего: 8



Смотри, сайт - это страницы. А страница - это просто много HTML-текста. Вот ты берёшь этот текст и выискиваешь в нём с помощью регулярных выражений то, что тебе нужно. Вот на этот текст (String) и применяешь String.indexOf("k");.

Система такая: чтобы тебе броузер отобразил страницу, он посылает на сервер http-запрос, а в ответ сервер возвращает HTML-код, который твой броузер трансформирует в то, что ты видишь в окне этого самого броузера. Твоя задача состоит в том, чтобы послать запрос серверу, получить текст (HTML) страницы, а потом уже копаться в этом тексте, выискивая всё, что тебе нужно. Ну, например, тебе нужен заголовок, тогда с помощью regexp-ов считываешь всё, что находится между тэгами <title>...</title>.

Это очень просто. Теперь ты можешь в поисковике искать тематически: " Java как послать запрос", регулярные выражения".

Я так понял, что, базовый простой синтаксис ты знаешь.

Удачи!
PM WWW ICQ   Вверх
Berliner
Дата 27.12.2005, 15:31 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 803
Регистрация: 18.5.2005

Репутация: 1
Всего: 2



Знаю я как подгрузить страницу, отобразить содержимое. Вот только не могу найти пример использования регулярных выражений в Java. Все восновном про Perl. Про применение регулярных выражений в Java- ничего нет! по форуму тоже пробывал искать инфы мало smile smile
PM   Вверх
LSD
Дата 27.12.2005, 15:49 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Leprechaun Software Developer
****


Профиль
Группа: Модератор
Сообщений: 15718
Регистрация: 24.3.2004
Где: Dublin

Репутация: 210
Всего: 538



Если сами регулярные выражения ты знаешь, то с Java все просто:
1. Создаем екземпряр java.util.regex.Pattern
Код
Pattern pattern = Pattern.compile(<pattern>, Pattern.CASE_INSENSITIVE & Pattern.MULTILINE);

достаточно создать его один раз он не изменяемый, и разные потоки могут совместно его использовать
2. Для твоей строки создаешь Matcher
Код
Matcher matcher = pattern.matcher(str);

3. Ищешь в строке совпадения:
Код
while(matcher.find())
{
  System.out.println("Position: " + matcher.regionStart() + "-" + matcher.regionEnd());
  System.out.println("Text: '" + matcher.group() + "'");
}

group() - позволяет получить не все выражение а лишь определенную группу из него, группа 0 зарезервированна за выражением в целом


--------------------
Disclaimer: this post contains explicit depictions of personal opinion. So, if it sounds sarcastic, don't take it seriously. If it sounds dangerous, do not try this at home or at all. And if it offends you, just don't read it.
PM MAIL WWW   Вверх
Berliner
Дата 27.12.2005, 16:09 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 803
Регистрация: 18.5.2005

Репутация: 1
Всего: 2



Спасиб за информацию!
PM   Вверх
Berliner
Дата 11.1.2006, 16:38 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 803
Регистрация: 18.5.2005

Репутация: 1
Всего: 2



скажите пожалуста ,а как подключится а подключаюсь примерно так:

JEditorPane htm=new JEditorPane();
htm.SetContentType("text,htm");
а дальше

Pattern pattern = Pattern.compile(<pattern>, Pattern.CASE_INSENSITIVE & Pattern.MULTILINE);
.......

скажите как указать правильно стравницу которую анализировать,

JEditorPane htm=new JEditorPane();
htm.SetContentType("text,htm");

или

URL url=new URL("http\\yahoo.com");

как правильно подключится к странице?



PM   Вверх
LSD
Дата 11.1.2006, 18:30 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Leprechaun Software Developer
****


Профиль
Группа: Модератор
Сообщений: 15718
Регистрация: 24.3.2004
Где: Dublin

Репутация: 210
Всего: 538



Получить страничку, можно получить так:
Код
URL url = new URL("http://forum.vingrad.ru/index.php");
HttpURLConnection httpConnection = (HttpURLConnection) url.openConnection();
Reader reader = new InputStreamReader(httpConnection.getInputStream(), httpConnection.getContentEncoding());



--------------------
Disclaimer: this post contains explicit depictions of personal opinion. So, if it sounds sarcastic, don't take it seriously. If it sounds dangerous, do not try this at home or at all. And if it offends you, just don't read it.
PM MAIL WWW   Вверх
Berliner
Дата 20.1.2006, 09:46 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 803
Регистрация: 18.5.2005

Репутация: 1
Всего: 2



Код

Pattern pattern = Pattern.compile(<pattern>, Pattern.CASE_INSENSITIVE & Pattern.MULTILINE);
Matcher matcher = pattern.matcher(str);


извините есть еще вопросик:

Не могу нормальной инфы по Pattern найти
Я думал, что Pattern pattern = Pattern.compile(<pattern>, Pattern.CASE_INSENSITIVE & Pattern.MULTILINE);

в скобках напишу запрос "типа SQL" и по нему буду анализировать страницу. Но вижу что эт не так.

Matcher matcher = pattern.matcher(str);

тут я так понимаю ищем совпадения . А что за перемення str?
если я хочу найти букву "К" то ее надо присвить String str="k";?

Пояните пожалуста этот Pattern


PM   Вверх
LSD
Дата 20.1.2006, 12:23 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Leprechaun Software Developer
****


Профиль
Группа: Модератор
Сообщений: 15718
Регистрация: 24.3.2004
Где: Dublin

Репутация: 210
Всего: 538



Пока кратко, может потом напишу статейку.

Pattern - это описатель шаблона поиска. Ты даешь ему описание того выражения, которое ты хочешь найти, на языке регулярных выражений. Он его переводит его в свой внутренний формат, пригодный для поиска.
Затем ты создаешь Matcher, этот класс производит поиск подстроки в указанной строке, используя заданный Pattern, у него есть несколько режимов поиска: полное совпадение строки с образцом или частичное.

По коду:
<pattern> - это регулярное выражение, которое ты хочешь найти.
str - это строка в которой надо производить поиск.

Пусть мы хотим найти текс между тегами <head> на странице, тогда он будет выглядеть приблизительно так:
Код
URL url = new URL("http://forum.vingrad.ru/index.php");
HttpURLConnection httpConnection = (HttpURLConnection) url.openConnection();
Reader reader = new InputStreamReader(httpConnection.getInputStream(), httpConnection.getContentEncoding());
StringBuffer strBuffer = new StringBuffer(5 * 1024);
char[] buffer = new char[512];
int read;
while((read = reader.read(buffer)) != -1)
  strBuffer.append(buffer, 0, read);
Pattern headPattern = Pattern.compile("<head>(.*)<\\/head>", Pattern.CASE_INSENSITIVE | Pattern.MULTILINE | Pattern.DOTALL);
Matcher headMatcher = headPattern.matcher(strBuffer);
while(headMatcher.find())
  System.out.println("Head: " + headMatcher.group(1));



--------------------
Disclaimer: this post contains explicit depictions of personal opinion. So, if it sounds sarcastic, don't take it seriously. If it sounds dangerous, do not try this at home or at all. And if it offends you, just don't read it.
PM MAIL WWW   Вверх
Berliner
Дата 23.1.2006, 16:16 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 803
Регистрация: 18.5.2005

Репутация: 1
Всего: 2



Вот мой код кторый я сделал - но только что-то не работает(ничего не выдает)

Код

class scr {
 String str;

 public void scr(){
    
   
try {
    
URL url=new URL("http://www.proj.pib.com.ua/?page=1&body=podrob"); //подключаем
 //ht(url.openConnection());
HttpURLConnection http=(HttpURLConnection) url.openConnection();    //устанавливаем соединение
BufferedReader reader = new BufferedReader                            
(new InputStreamReader(http.getInputStream(),http.getContentEncoding()));// //создаем ридер (ридер)
//он будет использоваться для чтения
        
        
        
StringBuffer buffer=new StringBuffer(); //создаем буфер(buffer) в который будем писать данные
while ((str=reader.read(buffer))!=null) { //читаем с помощью //ридера(reader) и заносим в переменную str
 buffer.append(str); //добавляем в буфер(buffer) результат //считывания str 
    
Pattern pattern=Pattern.compile("<head>(.*)<\\/head>",Pattern.CASE_INSENSITIVE);
Matcher matcher=pattern.matcher(str); //ищем совпадение 

while (matcher.find()==true)
{System.out.println("Head: " + matcher.group(1));
 

}

                                        }

    }
catch(IOException e) {
//System.out.print("Введите правиьно ссылку");
                      }
    
 } 


 

}




И еще если можно поясните пожалуста, почему у меня возникает ошибка при написании следующего когда:
Код


class scr {
 String str;

 public void scr(HttpURLConnection ht){
    
   
try {
    
URL url=new URL("http://www.proj.pib.com.ua/?page=1&body=podrob");
ht(url.openConnection());


PM   Вверх
powerOn
Дата 23.1.2006, 16:28 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


software saboteur
****


Профиль
Группа: Участник
Сообщений: 4367
Регистрация: 7.10.2005

Репутация: 47
Всего: 159



В последней строчке ты что хочешь сделать?

Код

ht(url.openConnection());



--------------------
user posted image нет времени думать - нужно писать КОД!

PM MAIL   Вверх
Страницы: (3) Все [1] 2 3 
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Java"
LSD   AntonSaburov
powerOn   tux
javastic
  • Прежде, чем задать вопрос, прочтите это!
  • Книги по Java собираются здесь.
  • Документация и ресурсы по Java находятся здесь.
  • Используйте теги [code=java][/code] для подсветки кода. Используйтe чекбокс "транслит", если у Вас нет русских шрифтов.
  • Помечайте свой вопрос как решённый, если на него получен ответ. Ссылка "Пометить как решённый" находится над первым постом.
  • Действия модераторов можно обсудить здесь.
  • FAQ раздела лежит здесь.

Если Вам помогли, и атмосфера форума Вам понравилась, то заходите к нам чаще! С уважением, LSD, AntonSaburov, powerOn, tux, javastic.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Java: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.1177 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.