Модераторы: Partizan, gambit
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Странное исключение при загрузке XML документа 
:(
    Опции темы
alexplato
Дата 25.11.2010, 22:03 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 81
Регистрация: 14.11.2010

Репутация: нет
Всего: нет



Вот выполняю следующий код:

Код

            rdr = new Sgml.SgmlReader();
            doc = new XmlDocument();
            rdr.Href = "http://msdn.microsoft.com/ru-ru/library/ms256086.aspx";
            doc.Load(rdr);
            string content = doc.InnerXml;


И на последнем операторе вылетает исключение:

"]]>" не может находиться внутри блока CDATA XML.

В чем причина? Что можно с этим поделать? Как все таки загрузить страницу?
PM MAIL   Вверх
diadiavova
Дата 26.11.2010, 13:56 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Доктор Зло(диагност, настоящий, с лицензией и полномочиями)
****


Профиль
Группа: Модератор
Сообщений: 5821
Регистрация: 14.8.2008
Где: В Коньфпольте

Репутация: 18
Всего: 142



Здесь проблема не в коде, а в самом документе. Там присутствует такой фрагмент
Код

//<![CDATA[

var wt_nvr_ru = "WT_NVR_RU";var wt_fpcdom = ".microsoft.com";var wt_domlist = "msdn.microsoft.com";var wt_pathlist = "";var wt_paramlist = "DCSext.mtps_devcenter";var wt_siteid = "MSDN";var gDomain="m.webtrends.com";
var gDcsId="dcsmgru7m99k7mqmgrhudo0k8_8c6m";
var gFpc="WT_FPC";
/*<![CDATA[*/
if(document.cookie.indexOf(gFpc+"=")==-1){document.write("<scr"+"ipt type='text/javascript' src='"+"http"+(window.location.protocol.indexOf('https:')==0?'s':'')+"://"+gDomain+"/"+gDcsId+"/wtid.js"+"'><\/scr"+"ipt>");}
/*]]>*/
var detectedLocale = 'ru-ru';

var wtsp="msdnlib_dotnet";

var gTrackEvents = 0;

var omni_guid='b5cc5c0c-2591-4f88-97e3-44957ba4f921';//]]>


В нем есть блок CDATA, в который вложен в такой же блок. В XML это запрещено, из-за этого и исключение.


--------------------
Хочешь получить мудрый совет - читай подписи участников форумов.
Злой доктор Щасзаболит smile
PM   Вверх
alexplato
Дата 26.11.2010, 20:17 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 81
Регистрация: 14.11.2010

Репутация: нет
Всего: нет



Ок, попытался выйти из ситуации воспользовавшись HttpWebRequest. Грузится теперь все нормально, я получаю тело страницы, но вот например следующий пример:

Код

http://siteexplorer.search.yahoo.com/search?p=forum.searchengines.ru/forumdisplay.php?f=19&bwm=i&bwmf=u&bwmo=d


Когда пытаюсь загрузить это тело страницы (полученное через HttpWebRequest) в XML документ:

Код

doc.LoadXml(PAGECODE);


Вылазит ислючение со следующим сообщением:
user posted image

получается, что более универсален последний подход, но как правильно обработать код перед загрузкой в XML документ???

Это сообщение отредактировал(а) alexplato - 26.11.2010, 20:19
PM MAIL   Вверх
wester
Дата 26.11.2010, 20:31 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 675
Регистрация: 27.2.2009

Репутация: 3
Всего: 13



alexplato
нужно весь документ парсить , или отдельные части ?
если отдельные части то можно воспользоваться регулярными выражениями.
и проще и возиться с исключениями не надо.
PM MAIL   Вверх
alexplato
Дата 26.11.2010, 21:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 81
Регистрация: 14.11.2010

Репутация: нет
Всего: нет



Цитата(wester @ 26.11.2010,  20:31)
alexplato
нужно весь документ парсить , или отдельные части ?
если отдельные части то можно воспользоваться регулярными выражениями.
и проще и возиться с исключениями не надо.

Да тут в том то и дело, что нужна возможность парсинга с вытягиванием элементов DOM модели документа
PM MAIL   Вверх
alexplato
Дата 26.11.2010, 23:14 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 81
Регистрация: 14.11.2010

Репутация: нет
Всего: нет



Может попробовать грузить через обычный Load,  а не через LoadXml ? А как это можно сделать, ведь ему же нельзя так просто передать строчку с XML?
PM MAIL   Вверх
diadiavova
Дата 26.11.2010, 23:31 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Доктор Зло(диагност, настоящий, с лицензией и полномочиями)
****


Профиль
Группа: Модератор
Сообщений: 5821
Регистрация: 14.8.2008
Где: В Коньфпольте

Репутация: 18
Всего: 142



alexplato, я бы на твоем месте воспользовался библиотекой mshtml, если браузер грузит документ, то она точно справится с ним.


--------------------
Хочешь получить мудрый совет - читай подписи участников форумов.
Злой доктор Щасзаболит smile
PM   Вверх
jonie
Дата 27.11.2010, 09:58 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 5613
Регистрация: 21.8.2005
Где: Владимир

Репутация: 6
Всего: 118



http://tidyfornet.sourceforge.net/ используйте ... или подобное. У вас там не XML вовсе, о чем собственно и заявляют парсеры

Это сообщение отредактировал(а) jonie - 27.11.2010, 09:59


--------------------
Что-то не поняли? -> Напейтесь до зеленых человечков... эта сверхцивилизация Вам поможет...
PM MAIL Jabber   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Прежде чем создать тему, посмотрите сюда:
Partizan
PashaPash

Используйте теги [code=csharp][/code] для подсветки кода. Используйтe чекбокс "транслит" если у Вас нет русских шрифтов.
Что делать если Вам помогли, но отблагодарить помощника плюсом в репутацию Вы не можете(не хватает сообщений)? Пишите сюда, или отправляйте репорт. Поставим :)
Так же не забывайте отмечать свой вопрос решенным, если он таковым является :)


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, mr.DUDA, Partizan, PashaPash.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | .NET для новичков | Следующая тема »


 




[ Время генерации скрипта: 0.0636 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.