Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате |
Форум программистов > Java: Общие вопросы > Массив строк и память |
Автор: serghd 28.1.2010, 16:42 | ||||
Смысл в том, чтобы забить list 75к массивами. Делал цикл на 75000 итераций:
JVM вылетает, как я понимаю из-за нехватки памяти. Пробовал также создать массив вне цикла:
Но в этом случае, поскольку массив содержит только ссылки на объекты, в list сохранится 75к массивов только со значениями последней итерации (изменение элементов массива отразится также на всех массивах list'a). Код максимально упростил, чтобы оставить только суть, на самом деле парсится xml. Спасибо. |
Автор: LSD 28.1.2010, 17:17 |
И в чем вопрос-то? Увеличь память, или перейди на два листа. Добавлено через 1 минуту и 4 секунды Или даже 2 массива. |
Автор: serghd 28.1.2010, 17:27 |
так увеличивал, такая же проблема как в последнем посте http://forum.vingrad.ru/forum/topic-141857/anchor-entry1070795/0.html. Не помогает это |
Автор: LSD 28.1.2010, 17:31 |
Или переходи на 64 битную JVM или на два листа. |
Автор: serghd 28.1.2010, 17:36 | ||
>>Или переходи на 64 битную JVM как, можно по-подробнее? >>или на два листа а что, два ArrayList'a занимают меньше чем один большой? |
Автор: LSD 28.1.2010, 17:45 |
Ставишь 64-х битную ОС, а на нее 64-х битную JVM ![]() Два ArrayList-а занимают места меньше чем один ArrayList и 75000 массивов String[]. |
Автор: serghd 28.1.2010, 18:24 | ||
И мне это рекомендовать всем, у кого будет программа? |
Автор: LSD 28.1.2010, 18:33 | ||||||
Тут все не так просто ![]() Никак.
Честно - нет. А так создают много одинаковых объектов и смотрят, сколько они занимают места. Еще есть извраты через unsafe, рефлексию и т.д.
1. Один символ занимает 2 байта (это же Unicode). 2. Строка это объект и у нее есть еще данные кроме самих символов. Да и массив символов тоже потребляет место. 3. Строки могут совместно использовать массивы символов. 4. Некоторые ссылки на строку, могут быть ссылкой на одну и ту же строку. Массив это объект. Как и любой объект у него есть накладные расходы: 8 байт на заголовок, 4 байта на длинну, и на данные. В случае с массивом объектов длинны 2 это будет 4*2 байта. Вот и считай, что лучше 2 * (8 + 4 + 75000 * 4) или (8 + 4 + 75000 * 4) + 75000 * (8 + 4 + 2* 4). |
Автор: andrew_121 28.1.2010, 18:33 |
я думаю должна быть возможность "попросить" у ВМ, больше памяти, программно. |
Автор: LSD 28.1.2010, 18:38 |
Твоя программа жрет слишком много памяти, это все что можно сказать из твоего кода и объяснения. И ты хочешь чтобы тебе подсказали как уменьшить потребление памяти, при этом вообще ничего не рассказывая ни про алгоритм работы, не показывая кода, вообще ничего кроме маленького примера, который вообще неизвестно насколько близок к реальной проблеме. И ты считаешь что это реально? |
Автор: andrew_121 28.1.2010, 18:40 | ||
LSD, спасибо за разъяснение. многое прояснилось. а по поводу программного перевыделения памяти - жаль конечно ![]() я уже подумал что можно "по человечески" разрулить ситуацию. типа этого:
тем не менее, всем спасибо. UP |
Автор: LSD 28.1.2010, 18:45 | ||
Ну можно попробовать пересоздать ArrayList и вызвать у него ensureCapacity() увеличив его немного по сравнению с предыдущим результатом. Просто в реальных приложениях такая работа на грани означает, что надо что-то радикально менять в алгоритме и/или железе (перейти на 64 бита или нарастить память). |
Автор: ernando 28.1.2010, 18:47 |
serghd, а можешь описать входные условия, ради чего тебе в памяти нужно дербанить 75к объектов, тем более массивов? Просто за все вермя работы в IT не приходилось гонять такие объемы, если это не было узкоспециализированной задачей, но там уже действительно выбирается другое железо и тюнится сама JVM. |
Автор: LSD 28.1.2010, 18:48 |
Кстати в данном случае, можно в класс Item добавить ссылку на следующий элемент и таким образом организовать связный список. Если нужна только однонаправленная итерация по списку, то это будет самый экономный способ динамического выделения памяти ![]() |
Автор: serghd 28.1.2010, 18:58 | ||
диапазоны IP адресов стран, нужно их перебирать для выяснения к какой стране относится ip. Для перебора - пропарсить xml с ними (каждый item будет иметь 6 типов данных - страна, ip_start, ip_end и др., поэтому и массив) и поместить в ArrayList, с которым потом и сравнивать. Почему установка VM Options -Xmx1600M не помогает, ей что, для такого массива надо больше 1600 мегабайт?? |
Автор: andrew_121 28.1.2010, 19:07 | ||||||||
да, один из вариантов.
понимаю.
мне тоже интересно ![]() 75к объектов, это нормально.
велосипед? кстати в моем варианте кода, получилось создать 100к объектов. просто добавил опцию для ВМ -Xmx128M. того, в сумме создано 800 000 строк. замечу не мало ![]() |
Автор: LSD 28.1.2010, 19:12 |
Сам ArrayList будет занимать около 75 килобайт, остальное твои объекты. |
Автор: jk1 28.1.2010, 19:12 |
serghd, почему вы так уверены что дело именно в массиве? Вы профайлер запускали, смотрели, кто именно жрет память? |
Автор: serghd 28.1.2010, 19:15 | ||
Какие мои, кроме 75к String[] и одного ArrayList практически ничего нет в программе! |
Автор: LSD 28.1.2010, 19:20 | ||||
1. Я говорил про ArrayList, но не про 75к String[]. 2.
спокойно отрабатывает и на 64 Мб. |
Автор: serghd 28.1.2010, 19:45 | ||||||||
Этот срабатывает и у меня. Но реальная задача: VM Options: -Xmx512m (запуск нормальный, т.е. было выделено) Код всей программы (для разбора xml используется qt jambi):
Всего 70040 строк. Без "geoIp.add(mas);" 1 секунда работы без ошибок. С ним вылетает. |
Автор: andrew_121 28.1.2010, 21:08 | ||
смотрю на код, и не въезжаю...какой же тайный смысл кроется в - почему бы не воспользоваться классом состоящим их шести полей типа строки? в таком случае, ситуация немного измениться по двум причинам: 1. класс с шестью строками != массив строк. возможно и памяти для него требуется меньше. 2. свойства класса можно назвать внятными именами, соответственно, работать с ним проще. 3. это:
выглядит как-то нелепо, батарею напоминает ![]() в общем, простите новичка, если глупость сказал ![]() |
Автор: serghd 28.1.2010, 21:18 | ||||||
потому что результат тот же. На всякий случай:
берутся аттрибуты item'a, батарея будет в любом случае, это не "Random()". У меня такой массив без вылета работает максимум на 25 000 итераций, если без установок. С -Xmx512m вобщем-то тоже самое. Пробовал также делить 75к на 7 частей и пихать их в отдельные Vector'ы, потом группировать в один, то же самое. |
Автор: serghd 28.1.2010, 23:10 |
дело было именно в xml, либо реализации механизма работы с ним со стороны jambi. Забивает память, что больше 20к строк лучше не запоминать. Попробовал считывать данные из csv-формата (построчно как обычный текстовый файл) и заносить их в ArrayList - всё норм. |
Автор: LSD 29.1.2010, 10:51 |
Ну вот нафига? Есть же SAX/StAX, которые в данной ситуации намного лучше подходят. Да и хранить IP в строке, тоже как минимум "странно". |
Автор: serghd 29.1.2010, 14:04 | ||
>>Есть же SAX/StAX Я использую DOM, а не SAX и jambi(при том, что весь проект на ней основан) для этого является очень удобным инструментом. Откуда мне было знать, что цикл с ним с более 20к итераций вызовет memory overflow. >>Да и хранить IP в строке, тоже как минимум "странно". А где же их ещё хранить? Там не только один ip. В БД типа mysql?) Парсится всё равно только 1 раз во время загрузки программы. Пример одного нода: <country ip_start="2.6.190.56" ip_end="2.6.190.63" num_ip_start="33996344" num_ip_end="33996351" flag="GB" >United Kingdom</country> |
Автор: LSD 29.1.2010, 14:09 |
С точки зрения экономии памяти - int для IPv4, или long, тогда будет проще сравнивать. |
Автор: serghd 29.1.2010, 14:18 |
да, но в любом случае мне придётся конвертировать. Аттрибуты num_ip_start="33996344" и num_ip_end="33996351" содержат числовое представление ip, которое и буду переводить в int для сравнения. А что, можно разве как-то реализовать без конвертирования? |
Автор: LSD 29.1.2010, 14:23 |
Я не совсем понял, что такое num_ip_start, что это за число? |
Автор: serghd 29.1.2010, 14:29 |
Диапазон от num_ip_start до num_ip_end равноценен диапазону ip-адресов ip_start до ip_end. Путём простого преобразования их можно переводить один в другой. Сделано специально для удобства определения входит Ip в диапазон или нет. |
Автор: LSD 29.1.2010, 14:58 |
Я не понял, как это число связано с IP адресом? Это просто IP представленный как int, так? |
Автор: serghd 29.1.2010, 15:13 | ||||
да Добавлено @ 15:14 простой код
с использованием xerces тоже выдал ошибку о переполнении. Блин, придётся наверно отказаться от xml, и парсить обычный текстовый файл. Хотя установка -Xmx256m на этот раз помогла. |
Автор: LSD 29.1.2010, 15:19 |
Используй StAX. (если выложишь пример XML, могу попробовать наваять примерчик) |
Автор: serghd 29.1.2010, 15:24 |
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE geoIp> <countries> <country ip_start="2.6.190.56" ip_end="2.6.190.63" num_ip_start="33996344" num_ip_end="33996351" flag="GB" >United Kingdom</country> <country ip_start="3.0.0.0" ip_end="4.17.135.31" num_ip_start="50331648" num_ip_end="68257567" flag="US" >United States</country> <country ip_start="4.17.135.32" ip_end="4.17.135.63" num_ip_start="68257568" num_ip_end="68257599" flag="CA" >Canada</country> <country ip_start="4.17.135.64" ip_end="4.17.142.255" num_ip_start="68257600" num_ip_end="68259583" flag="US" >United States</country> <country ip_start="4.17.143.0" ip_end="4.17.143.15" num_ip_start="68259584" num_ip_end="68259599" flag="CA" >Canada</country> </countries> Спасиб. |
Автор: Amp 29.1.2010, 15:36 |
Если уж хочется завязки на QtJambi, то в модуле QtXml есть необходимые средства - глава про "The Qt SAX2 Classes". |
Автор: serghd 29.1.2010, 15:38 | ||
Так я и так использовал jambi, но DOM. А что, в моём случае (~75000 нодов) SAX наверняка поможет? |
Автор: Amp 29.1.2010, 19:03 | ||
Потребление памяти самим SAX-парсером практически не зависит от размеров исходного xml-документа и достаточно мало. В отличии от DOM-парсеров, где надо в памяти хранить дерево со считанными элементами/нодами. Почитайте как это работает - все станет ясно. |
Автор: serghd 29.1.2010, 20:12 | ||||
спасибо, а у вас случайно нету практического примера на jambi хоть какого-нибудь? А то в инете весьма трудно найти, максимум на с++. Тролли и так весьма скупы на примеры, а для sax их вообще в оф. документации нет. |
Автор: LSD 1.2.2010, 20:58 | ||||||
Пока просто код без комментариев, через пару дней напишу статью в FAQ.
Я немного изменил XML, убрал ненужные данные:
|
Автор: serghd 2.2.2010, 15:04 |
![]() насчёт статьи, думаю, и правда пригодилась бы. п.с. код (второй блок) выглядит жутковато)), комменты действительно не помешали бы. Видна рука профессионала. |
Автор: LSD 2.2.2010, 18:55 |
http://forum.vingrad.ru/forum/topic-289929.html. |
Автор: sergioK 13.2.2010, 10:31 | ||||||
[QUOTE=LSD,28.1.2010, 18:33]
т,е , если было 1000 элеметов то выделит 1500, перекопирует потом выделит 2250 , потом снова перекопирует и выделит потом 3375 и т,д, откуда предположения что имеено в 1,5раза ,? |
Автор: jk1 13.2.2010, 12:18 | ||||||
Исходники ArrayList это объясняют:
|
Автор: sergioK 13.2.2010, 19:48 | ||||||||
понятно, значит для решения подобных проблем связанных с нехваткой памяти , т,е, фактически нужно создать свой мемory меnagment перегрузив ensureCapacity , не увиличивать массив на 1,5 раза (тотому что при больших размерах может таки выбить )а скажем добавлять 10 и до тех пор пока не добавлены все 10 перекачку тоже делать не обязательно ) |
Автор: LSD 15.2.2010, 17:35 | ||
И вместо 2,5 кратного потребления памяти получим ~2-х кратное. В общем выигрыш не велик ![]() Если уж так хочется выжать память по максимуму, то стоит данные хранить не в одном массиве а в нескольких. Т.е. данные хранятся в нескольких маленьких массивах по паре килобайт. http://svn.apache.org/viewvc/commons/proper/io/trunk/src/java/org/apache/commons/io/output/ByteArrayOutputStream.java?diff_format=h&revision=736890&view=markup. |