yakov_a_jerkov | Другой технический вопрос

Другой технический вопрос

Есть в этом какая-то проблема, если на Windows в одном folder миллион (один миллион, буквально) файлов?

У меня сейчас в одном фолдере триста тысяч -- небольшие jpg-файлы, общий размер всего 4 GB -- вроде, никаких проблем нет. Но я не знаю, какой-то предел должен быть, наверное.

Поясню, зачем мне это нужно. Я с ноября пытаюсь научиться разному в области machine learning, и, в частности, neural networks. Сейчас пытаюсь сделать что-то с этой задачей на Kaggle.com, и там training set как раз имеет 1.1 миллиона картинок.

Threaded | Top-Level Comments Only

По спецификации, NTFS поддерживает 4,294,967,295 файлов на диске. В принципе, все 4 миллиарда могут быть в одном фолдере, файловой системе все равно.

Но, конечно, некоторым аппликациям, которые недостаточно хорошо оптимизированы, может быть не все равно. Поэтому обычно их все же разносят по сабфолдерам, по какому-нибудь хешу, например, или по первой паре букв в названии если они достаточно рандомизированы, и.т.п.

файловой системе все равно

Спасибо, не знал этого.

Maximum number of files in a single folder: 4,294,967,295

но, это будет медленно :) убрать фолдер из windows search indexer стоит.

Я работал с овер 1000000 файлов в R и питоне, проблем не заметил. Если что, каждый файл представлял из себя шесть двузначных цифр, разделённых пробелами. В питоне я вместо базы данных строки из краулера в отдельные файлы сохранял. Некогда учиться было, надо было делать ;)

убрать фолдер из windows search indexer стоит

Спасибо.

Некогда учиться было, надо было делать ;)

В принципе, смысл в этом есть. Учиться можно/нужно бесконечно.

А попробуйте-ка удалить их.

удалять их конешно надо из cmd или powershell, тогда всё получится.

да не за што :)

к верно сказаному выше про проблемы с отдельными приложениями добавлю, что еще могут быть неприятности с размером списка имен файлов, особенно если они у Вас лежат где то в Документах и сам путь до того фолдера -- достаточно длинная строка

Файловая система ОС - плохая база данных ;)

наоборот. если по природе данных к ним не может иметь отношения "история транзакций", то она -- лучшая

Я их moved с одного диска на другой. Без проблем, но тогда их еще было меньше ста тысяч. Сейчас не пробовал.

Спасибо. Я их загружаю на несистемный диск, который почти пустой.

А как было бы правильно обходиться с этими файлами?

Это не так. Многие люди так думали и обжигались на этом. Я на двух работах был тому свидетелем.

Ни управляемого кэширования, ни быстрой статистики, ни автоматического индексирования, ни разумного хэндлинга сбоев сетевой NTFS если сеть используется плюс все остальное тормозит.

Я не думаю, что есть одно «правильное» решение.

Надо прикинуть что Вам нужно. Как Вы хотите организовывать эти файлы и результаты работы с ними. Нужно ли кэширование чего-нибудь. В таком духе.

Файлы перестают хорошо работать когда их становится много и структура данных усложняется. Надо искать лучшую БД которая удовлетворяет вашим нуждам.

У меня есть csv файл с миллионом urls фотографий (почти все на Гугле). То есть сначала мне нужно загрузить эти файлы, что я и делаю в один фолдер.

Дальше я уже загружаю эти images как arrays и использую их как inputs neural network. Сами файлы после этого больше не трогаю.

Я пока применял neural network (довольно безуспешно) только к подмножеству из десяти тысяч фотографий. Проблем с памятью пока не было. Наверное, проблемы возникнут, когда я увеличу число фотографий в training set.

Проблемы могут проявиться на миллионах файлов. https://bugs.python.org/issue32453 Но может быть это только на Linux, и Windows умнее. Кстати, диск SSD или HDD? На SDD вроде проблема мягче.

надо поставить пятидесятый рейд с самым простеньким контроллером с батарейкой. и он этим всем будет заниматься сам. а человек -- полезной логикой

Скажу так: в моей прошлой конторе было айтишников человек 500. И много умных. Они тоже думали, что контроллер будет сам. Сбоило периодически.

Но конечно, это все относится к большим масштабам. В небольших масштабах можно и с файлами, но эти не очень хорошо scalable.

Ну я же не знаю вашей специфики. Может быть, кроме массива пикселов, Вам нужно хранить какие-то параметры? А как насчёт хранения результата?

Вообще говоря, правильно - это когда система бесконечно scalable. Скажем, память на компьютере ограничена, но можно иметь сколько угодно компьютеров.

если Вам показалось, будто бы я предлагал решить все информационные проблемы в индустрии масштаба "только айтишников полтыщи" с помошью одной карточки за восемьдесят долларов, то оно Вам совершенно напрасно так показалось

Threaded | Top-Level Comments Only

Другой технический вопрос

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject