yakov_a_jerkov: (Default)
[personal profile] yakov_a_jerkov
Есть в этом какая-то проблема, если на Windows в одном folder миллион (один миллион, буквально) файлов?

У меня сейчас в одном фолдере триста тысяч -- небольшие jpg-файлы, общий размер всего 4 GB -- вроде, никаких проблем нет. Но я не знаю, какой-то предел должен быть, наверное.

Поясню, зачем мне это нужно. Я с ноября пытаюсь научиться разному в области machine learning, и, в частности, neural networks. Сейчас пытаюсь сделать что-то с этой задачей на Kaggle.com, и там training set как раз имеет 1.1 миллиона картинок.

Date: 2018-03-25 12:42 am (UTC)
From: [identity profile] ign.livejournal.com
По спецификации, NTFS поддерживает 4,294,967,295 файлов на диске. В принципе, все 4 миллиарда могут быть в одном фолдере, файловой системе все равно.

Но, конечно, некоторым аппликациям, которые недостаточно хорошо оптимизированы, может быть не все равно. Поэтому обычно их все же разносят по сабфолдерам, по какому-нибудь хешу, например, или по первой паре букв в названии если они достаточно рандомизированы, и.т.п.

Date: 2018-03-25 12:44 am (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
файловой системе все равно

Спасибо, не знал этого.

Date: 2018-03-25 01:24 am (UTC)
From: [identity profile] ordinary-joe-1.livejournal.com
Maximum number of files in a single folder: 4,294,967,295

но, это будет медленно :) убрать фолдер из windows search indexer стоит.

Date: 2018-03-25 02:10 am (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
убрать фолдер из windows search indexer стоит

Спасибо.

Date: 2018-03-25 09:22 am (UTC)
From: [identity profile] ordinary-joe-1.livejournal.com
да не за што :)

Date: 2018-03-25 01:42 am (UTC)
From: [identity profile] evlasov.livejournal.com
Я работал с овер 1000000 файлов в R и питоне, проблем не заметил. Если что, каждый файл представлял из себя шесть двузначных цифр, разделённых пробелами. В питоне я вместо базы данных строки из краулера в отдельные файлы сохранял. Некогда учиться было, надо было делать ;)

Date: 2018-03-25 02:12 am (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
Некогда учиться было, надо было делать ;)

В принципе, смысл в этом есть. Учиться можно/нужно бесконечно.

Date: 2018-03-25 06:37 am (UTC)
ext_605364: geg MOPO4 (Default)
From: [identity profile] gegmopo4.livejournal.com
А попробуйте-ка удалить их.

Date: 2018-03-25 09:21 am (UTC)
From: [identity profile] ordinary-joe-1.livejournal.com
удалять их конешно надо из cmd или powershell, тогда всё получится.

Date: 2018-03-25 03:00 pm (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
Я их moved с одного диска на другой. Без проблем, но тогда их еще было меньше ста тысяч. Сейчас не пробовал.

Date: 2018-03-25 05:28 pm (UTC)
ext_605364: geg MOPO4 (Default)
From: [identity profile] gegmopo4.livejournal.com
Проблемы могут проявиться на миллионах файлов. https://bugs.python.org/issue32453 Но может быть это только на Linux, и Windows умнее. Кстати, диск SSD или HDD? На SDD вроде проблема мягче.

Date: 2018-03-25 11:45 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
к верно сказаному выше про проблемы с отдельными приложениями добавлю, что еще могут быть неприятности с размером списка имен файлов, особенно если они у Вас лежат где то в Документах и сам путь до того фолдера -- достаточно длинная строка

Date: 2018-03-25 03:17 pm (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
Спасибо. Я их загружаю на несистемный диск, который почти пустой.

Date: 2018-03-25 02:18 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Файловая система ОС - плохая база данных ;)

Date: 2018-03-25 02:44 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
наоборот. если по природе данных к ним не может иметь отношения "история транзакций", то она -- лучшая

Date: 2018-03-25 03:44 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Это не так. Многие люди так думали и обжигались на этом. Я на двух работах был тому свидетелем.

Ни управляемого кэширования, ни быстрой статистики, ни автоматического индексирования, ни разумного хэндлинга сбоев сетевой NTFS если сеть используется плюс все остальное тормозит.

Date: 2018-03-26 02:14 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
надо поставить пятидесятый рейд с самым простеньким контроллером с батарейкой. и он этим всем будет заниматься сам. а человек -- полезной логикой

Date: 2018-03-26 04:50 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Скажу так: в моей прошлой конторе было айтишников человек 500. И много умных. Они тоже думали, что контроллер будет сам. Сбоило периодически.

Date: 2018-03-26 04:51 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Но конечно, это все относится к большим масштабам. В небольших масштабах можно и с файлами, но эти не очень хорошо scalable.

Date: 2018-03-27 02:19 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
если Вам показалось, будто бы я предлагал решить все информационные проблемы в индустрии масштаба "только айтишников полтыщи" с помошью одной карточки за восемьдесят долларов, то оно Вам совершенно напрасно так показалось

Date: 2018-03-25 03:27 pm (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
А как было бы правильно обходиться с этими файлами?

Date: 2018-03-25 03:55 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Я не думаю, что есть одно «правильное» решение.

Надо прикинуть что Вам нужно. Как Вы хотите организовывать эти файлы и результаты работы с ними. Нужно ли кэширование чего-нибудь. В таком духе.

Файлы перестают хорошо работать когда их становится много и структура данных усложняется. Надо искать лучшую БД которая удовлетворяет вашим нуждам.

Date: 2018-03-25 04:21 pm (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
У меня есть csv файл с миллионом urls фотографий (почти все на Гугле). То есть сначала мне нужно загрузить эти файлы, что я и делаю в один фолдер.

Дальше я уже загружаю эти images как arrays и использую их как inputs neural network. Сами файлы после этого больше не трогаю.

Я пока применял neural network (довольно безуспешно) только к подмножеству из десяти тысяч фотографий. Проблем с памятью пока не было. Наверное, проблемы возникнут, когда я увеличу число фотографий в training set.

Date: 2018-03-26 04:54 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Ну я же не знаю вашей специфики. Может быть, кроме массива пикселов, Вам нужно хранить какие-то параметры? А как насчёт хранения результата?

Вообще говоря, правильно - это когда система бесконечно scalable. Скажем, память на компьютере ограничена, но можно иметь сколько угодно компьютеров.

Profile

yakov_a_jerkov: (Default)
yakov_a_jerkov

June 2025

S M T W T F S
1 2 3 4 567
8 910 11 12 13 14
15 16 1718192021
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 18th, 2025 12:19 pm
Powered by Dreamwidth Studios
OSZAR »