yakov_a_jerkov (
yakov_a_jerkov) wrote2018-03-24 07:19 pm
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Другой технический вопрос
Есть в этом какая-то проблема, если на Windows в одном folder миллион (один миллион, буквально) файлов?
У меня сейчас в одном фолдере триста тысяч -- небольшие jpg-файлы, общий размер всего 4 GB -- вроде, никаких проблем нет. Но я не знаю, какой-то предел должен быть, наверное.
Поясню, зачем мне это нужно. Я с ноября пытаюсь научиться разному в области machine learning, и, в частности, neural networks. Сейчас пытаюсь сделать что-то с этой задачей на Kaggle.com, и там training set как раз имеет 1.1 миллиона картинок.
У меня сейчас в одном фолдере триста тысяч -- небольшие jpg-файлы, общий размер всего 4 GB -- вроде, никаких проблем нет. Но я не знаю, какой-то предел должен быть, наверное.
Поясню, зачем мне это нужно. Я с ноября пытаюсь научиться разному в области machine learning, и, в частности, neural networks. Сейчас пытаюсь сделать что-то с этой задачей на Kaggle.com, и там training set как раз имеет 1.1 миллиона картинок.
no subject
Но, конечно, некоторым аппликациям, которые недостаточно хорошо оптимизированы, может быть не все равно. Поэтому обычно их все же разносят по сабфолдерам, по какому-нибудь хешу, например, или по первой паре букв в названии если они достаточно рандомизированы, и.т.п.
no subject
Спасибо, не знал этого.
no subject
но, это будет медленно :) убрать фолдер из windows search indexer стоит.
no subject
no subject
Спасибо.
no subject
В принципе, смысл в этом есть. Учиться можно/нужно бесконечно.
no subject
no subject
no subject
no subject
no subject
Файловая система ОС - плохая база данных ;)
no subject
no subject
no subject
no subject
no subject
Это не так. Многие люди так думали и обжигались на этом. Я на двух работах был тому свидетелем.
Ни управляемого кэширования, ни быстрой статистики, ни автоматического индексирования, ни разумного хэндлинга сбоев сетевой NTFS если сеть используется плюс все остальное тормозит.
no subject
Я не думаю, что есть одно «правильное» решение.
Надо прикинуть что Вам нужно. Как Вы хотите организовывать эти файлы и результаты работы с ними. Нужно ли кэширование чего-нибудь. В таком духе.
Файлы перестают хорошо работать когда их становится много и структура данных усложняется. Надо искать лучшую БД которая удовлетворяет вашим нуждам.
no subject
Дальше я уже загружаю эти images как arrays и использую их как inputs neural network. Сами файлы после этого больше не трогаю.
Я пока применял neural network (довольно безуспешно) только к подмножеству из десяти тысяч фотографий. Проблем с памятью пока не было. Наверное, проблемы возникнут, когда я увеличу число фотографий в training set.
no subject
no subject
no subject
Скажу так: в моей прошлой конторе было айтишников человек 500. И много умных. Они тоже думали, что контроллер будет сам. Сбоило периодически.
no subject
Но конечно, это все относится к большим масштабам. В небольших масштабах можно и с файлами, но эти не очень хорошо scalable.
no subject
Ну я же не знаю вашей специфики. Может быть, кроме массива пикселов, Вам нужно хранить какие-то параметры? А как насчёт хранения результата?
Вообще говоря, правильно - это когда система бесконечно scalable. Скажем, память на компьютере ограничена, но можно иметь сколько угодно компьютеров.
no subject