Другой технический вопрос
Mar. 24th, 2018 07:19 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Есть в этом какая-то проблема, если на Windows в одном folder миллион (один миллион, буквально) файлов?
У меня сейчас в одном фолдере триста тысяч -- небольшие jpg-файлы, общий размер всего 4 GB -- вроде, никаких проблем нет. Но я не знаю, какой-то предел должен быть, наверное.
Поясню, зачем мне это нужно. Я с ноября пытаюсь научиться разному в области machine learning, и, в частности, neural networks. Сейчас пытаюсь сделать что-то с этой задачей на Kaggle.com, и там training set как раз имеет 1.1 миллиона картинок.
У меня сейчас в одном фолдере триста тысяч -- небольшие jpg-файлы, общий размер всего 4 GB -- вроде, никаких проблем нет. Но я не знаю, какой-то предел должен быть, наверное.
Поясню, зачем мне это нужно. Я с ноября пытаюсь научиться разному в области machine learning, и, в частности, neural networks. Сейчас пытаюсь сделать что-то с этой задачей на Kaggle.com, и там training set как раз имеет 1.1 миллиона картинок.
no subject
Date: 2018-03-25 12:42 am (UTC)Но, конечно, некоторым аппликациям, которые недостаточно хорошо оптимизированы, может быть не все равно. Поэтому обычно их все же разносят по сабфолдерам, по какому-нибудь хешу, например, или по первой паре букв в названии если они достаточно рандомизированы, и.т.п.
no subject
Date: 2018-03-25 12:44 am (UTC)Спасибо, не знал этого.
no subject
Date: 2018-03-25 01:24 am (UTC)но, это будет медленно :) убрать фолдер из windows search indexer стоит.
no subject
Date: 2018-03-25 02:10 am (UTC)Спасибо.
no subject
Date: 2018-03-25 09:22 am (UTC)no subject
Date: 2018-03-25 01:42 am (UTC)no subject
Date: 2018-03-25 02:12 am (UTC)В принципе, смысл в этом есть. Учиться можно/нужно бесконечно.
no subject
Date: 2018-03-25 06:37 am (UTC)no subject
Date: 2018-03-25 09:21 am (UTC)no subject
Date: 2018-03-25 03:00 pm (UTC)no subject
Date: 2018-03-25 05:28 pm (UTC)no subject
Date: 2018-03-25 11:45 am (UTC)no subject
Date: 2018-03-25 03:17 pm (UTC)no subject
Date: 2018-03-25 02:18 pm (UTC)Файловая система ОС - плохая база данных ;)
no subject
Date: 2018-03-25 02:44 pm (UTC)no subject
Date: 2018-03-25 03:44 pm (UTC)Это не так. Многие люди так думали и обжигались на этом. Я на двух работах был тому свидетелем.
Ни управляемого кэширования, ни быстрой статистики, ни автоматического индексирования, ни разумного хэндлинга сбоев сетевой NTFS если сеть используется плюс все остальное тормозит.
no subject
Date: 2018-03-26 02:14 am (UTC)no subject
Date: 2018-03-26 04:50 pm (UTC)Скажу так: в моей прошлой конторе было айтишников человек 500. И много умных. Они тоже думали, что контроллер будет сам. Сбоило периодически.
no subject
Date: 2018-03-26 04:51 pm (UTC)Но конечно, это все относится к большим масштабам. В небольших масштабах можно и с файлами, но эти не очень хорошо scalable.
no subject
Date: 2018-03-27 02:19 am (UTC)no subject
Date: 2018-03-25 03:27 pm (UTC)no subject
Date: 2018-03-25 03:55 pm (UTC)Я не думаю, что есть одно «правильное» решение.
Надо прикинуть что Вам нужно. Как Вы хотите организовывать эти файлы и результаты работы с ними. Нужно ли кэширование чего-нибудь. В таком духе.
Файлы перестают хорошо работать когда их становится много и структура данных усложняется. Надо искать лучшую БД которая удовлетворяет вашим нуждам.
no subject
Date: 2018-03-25 04:21 pm (UTC)Дальше я уже загружаю эти images как arrays и использую их как inputs neural network. Сами файлы после этого больше не трогаю.
Я пока применял neural network (довольно безуспешно) только к подмножеству из десяти тысяч фотографий. Проблем с памятью пока не было. Наверное, проблемы возникнут, когда я увеличу число фотографий в training set.
no subject
Date: 2018-03-26 04:54 pm (UTC)Ну я же не знаю вашей специфики. Может быть, кроме массива пикселов, Вам нужно хранить какие-то параметры? А как насчёт хранения результата?
Вообще говоря, правильно - это когда система бесконечно scalable. Скажем, память на компьютере ограничена, но можно иметь сколько угодно компьютеров.