Распределенная файловая система GFS (Google File System). Пошаговое руководство по использованию распределенной файловой системы

Управление дисками и файловыми ресурсами. [Занятие 12]
Развертывание и администрирование сети с выделенным сервером на базе Windows Server 2003
vsit, Wednesday 25 October 2006 - 09:54:06

Занятие 12. Управление дисками и файловыми ресурсами.

Все вопросы связанные с администрированием дисковых и файловых ресурсов были подробно рассмотрены в разделе, посвященном Windows XP Professional (Курс "Системный администратор компьютерной сети" ). Управление этими ресурсами в семействе Windows Server 2003 осуществляется аналогично и в данном разделе рассматриваться не будет.

В этом разделе мы рассмотрим дополнительные возможности файловой системы, применяемые на серверах, и реализованные в операционной системе Windows Server 2003, предназначенные для работы с устройствами хранения информации. К таковым относятся: распределенная файловая система (Distributed file system, DFS), теневые копии дисков (Shadow Copies), технологии сжатия файлов.

С помощью Распределенной файловой системы (DFS) системный администратор может упростить для пользователей доступ к файлам, физически распределенным по сети, и управление ими. Система DFS дает возможность предоставить пользователям файлы, находящиеся на разных серверах, так как если бы они находились в едином месте. Для доступа к таким файлам пользователям не потребуется указывать их действительное физическое положение.

Например, если рабочие материалы находятся на разных серверах домена, можно использовать DFS, чтобы для пользователей все эти материалы располагались на одном сервере. При этом пользователям не придется обращаться к различным сетевым ресурсам, чтобы найти требуемые данные.

Основания для использования DFS

Предполагается добавление файловых серверов или изменение расположения файлов.
Пользователи обращаются к целевым папкам с разных узлов.
Большинству пользователей необходим доступ к нескольким целевым папкам.
Распределение целевых папок позволяет сделать загрузку сервера более эффективной.
Пользователям требуется непрерывный доступ к целевым папкам.
В организации есть веб-узлы для внутреннего и внешнего использования.

Типы DFS

Распределенная файловая система может быть реализована двумя путями:

распределенная файловая система с изолированным корнем
доменная распределенная файловая система.

Доступ к целевым папкам DFS с других компьютеров

Наряду с серверным компонентом DFS семейства Windows Server 2003 существует также клиентский компонент DFS. Клиент DFS выполняет кэширование обращений к корню DFS или к ссылке DFS в течение времени, заданного администратором и может работать с различными системами Windows.

Преимущества.

Распределенная файловая система DFS обладает рядом преимуществ позволяющих обеспечивать высокую отказоустойчивость и сбалансированную нагрузку.

Простой доступ к файлам

Распределенная файловая система упрощает доступ к файлам. Пользователи используют единый сетевой ресурс для доступа к файлам, даже если эти файлы физически находятся на разных серверах. Даже если изменится физическое расположение целевой папки, это не повлияет на доступ пользователей к ней. Они смогут обращаться к папке как раньше, поскольку ее видимое расположение не изменится.

Пользователям не требуется подключать несколько дисков для доступа к своим файлам. Кроме того, задачи по обслуживанию сервера, обновлению программ и другие, которые обычно требуют отключения сервера, могут выполняться без отключения пользователей от ресурсов. Это особенно полезно для веб-серверов. Выбрав корневой каталог веб-узла в качестве корня DFS, можно перемещать ресурсы в рамках распределенной файловой системы, не нарушая ссылки HTML.

Доступность

Доменные DFS обеспечивают пользователям доступ к файлам двумя способами:

Операционная система Windows Server 2003 автоматически публикует топологию DFS в Active Directory. Благодаря этому пространство имен DFS всегда видимо для пользователей всех серверов в домене.
Администратор может реплицировать корень DFS и целевые папки. Репликация означает дублирование корней и целевых папок DFS на нескольких серверах домена. При этом пользователи всегда могут получить доступ к своим файлам, даже если один из физических серверов, на котором эти файлы находятся, становится недоступным.

Корень DFS может поддерживать несколько целевых папок DFS, которые физически распределены по сети. Например, это полезно, если есть файл, который активно используется пользователями. Пользователи будут обращаться к этому файлу не на одном сервере, сильно загружая его, а к файлу, распределенному системой DFS по разным серверам. Однако для пользователей этот файл будет виден в едином месте в сети.

Безопасность файлов и папок

Поскольку общие ресурсы, управляемые DFS, используют стандартные разрешения NTFS и разрешения общего доступа к файлам, можно использовать существующие группы безопасности и учетные записи пользователей, чтобы гарантировать, что только авторизованные пользователи имеют доступ к важным данным.

Структура файловой системы.

Структура распределенной файловой системы DFS состоит из корня DFS, одной или нескольких ссылок DFS и указаний на одну или несколько целевых папок.

Сервер домена, на котором располагается корень DFS, называется узловым сервером. Можно реплицировать корень DFS, создав корневые целевые папки на других серверах домена. Это обеспечит доступ к файлам при отключении узлового сервера.

Для пользователей структура DFS предоставляет единый прозрачный интерфейс доступа к сетевым ресурсам. Для системных администраторов структура DFS - это простое пространство имен DNS: при использовании доменной DFS имена DNS корневых папок DFS разрешаются на узловые сервера для корня DFS.

Поскольку узловой сервер доменной распределенной файловой системы является сервером домена, структура DFS по умолчанию автоматически публикуется в Active Directory, обеспечивая синхронизацию структур DFS на узловых серверах. Это, в свою очередь, обеспечивает защиту от сбоев корня DFS и поддерживает возможность репликации целевых папок DFS.

Можно расширить структуру DFS, добавив ссылку DFS к корню DFS. Единственное ограничение на число иерархических уровней в структуре DFS определяется максимальной длиной пути к любому файлу, которая в семействе Windows Server 2003 равна 260 символам. Новая ссылка DFS может указывать на целевую папку, содержащую или не содержащую подпапки, а также на весь том семейства Windows Server 2003. Если у пользователя есть соответствующие разрешения, он может также обращаться к любым локальным папкам, существующим в целевой папке или добавляемым в нее.

Клиенты.

Для обеспечения доступа к структуре DFS вам необходимо установить на компьютеры пользователей клиентский компонент DFS. Ниже приведены типы клиентской поддержки DFS, предоставляемые различными операционными системами.

Автономный клиент DFS работает только с автономными серверами (входящими в состав рабочей группы), на которых расположен корень DFS.

Серверы.

Любая операционная система семейства Windows Server 2003, включая Windows Server 2003 Web Edition, а также Windows 2000 Server, может содержать корень DFS. При этом сервер, на котором расположен корень DFS, может работать как в составе домена, так и в автономном режиме (в составе рабочей группы).

Операционная система Windows NT 4 Server с установленным Service Pack 3 или более поздней версии, тоже может содержать корень DFS, но только в автономном режиме.

Чтобы использовать синхронизацию папок из системы DFS для обеспечения идентичности двух разделяемых файловых ресурсов, корень DFS должен быть расположен на сервере, работающим в режиме домена, а разделяемые файловые ресурсы должны размещаться на разделах NTFS контроллеров домена.

Дерево DFS.

Распределенная файловая система DFS является иерархической древовидной структурой, похожей на обычную файловую систему. Однако, иерархия DFS, в отличие от файловой системы, строится из трех основных элементов: корни DFS, ссылки DFS и цели (целевые папки).

Семейство Windows Server 2003 поддерживает целевые папки на следующих платформах.

Для поддержки синхронизации целевых папок ресурс для ссылки на них должен находиться в разделе NTFS семейства Windows Server 2003.

Корень DFS (DFS root)

Структура дерева DFS начинается с корня DFS, аналогично тому, как файловая система начинается с диска. Корень - начальная точка пространства имен распределенной файловой системы DFS. Корень часто используют для обращения к пространству имен как к целому и сопоставляется одной или нескольким корневым целевым папкам, каждая из которых соответствует общей папке на сервере.

Windows NT 4.0 и Windows 2000 поддерживают только один корень DFS на один сервер. Windows Server 2003 не имеет такого ограничения.

Ссылка создает связь корня DFS с другими разделяемыми файловыми ресурсами и отображается в виде подпапки (подкаталога) корня DFS. DFS-ссылка является элементом в пространстве имен распределенной файловой системы DFS, расположенным ниже корня и сопоставленным одной или нескольким целевым папкам, каждая из которых соответствует общей папке или другому корню DFS.

Ссылка не обязательно должна ссылаться на одну конкретную папку, она может представлять связь с несколькими идентичными папками (не более 32), которые называются целевыми, причем клиент DFS видит их как одну обычную папку.

Целевая папка или цель (target)

Поскольку цель (реплика) состоит из нескольких идентичных папок, клиент DFS выбирает цель случайным образом, что позволяет равномерно распределить нагрузку между серверами. При отключении одной из целей клиентом автоматически выбирается другая цел, обеспечивая тем самым отказоустойчивость и балансирование нагрузки. Можно задавать синхронизацию цели с со всеми другими целями, для этого обязательно корень DFS должен быть в домене, а цели должны размещаться на серверах Windows, с запущеной службой репликации файлов. Эта служба запускается автоматически на контроллерах доменов, а на рядовых серверах запускается вручную из консоли Сервисы (Services).

Создание структуры DFS.

Для того, чтобы создать структуру DFS, необходимо сначала создать корень DFS, затем создать ссылки на любые файловые ресурсы, которые хотите включить в данный корень. Файловые ресурсы должны быть разделяемыми, т.е. с разрешенным общим доступом.

Создание корня.

Корень DFS может быть создан на разделе NTFS, находящемся на компьютере под управлением ОС семейства Windows Server 2003. Можно создать изолированный или доменный корень DFS.

Изолированный корень DFS:

не использует службу Active Directory;
не может иметь несколько целевых папок корневого уровня;
не поддерживает автоматическую репликацию файлов с использованием службы репликации файлов;
поддерживает отказоустойчивость, используя кластеры серверов.

Доменный корень DFS:

должен находиться на сервере домена;
имеет собственное пространство имен DFS, автоматически публикуемое службой Active Directory;
может иметь несколько целевых папок корневого уровня;
поддерживает автоматическую репликацию файлов с использованием службы репликации файлов;
поддерживает отказоустойчивость, используя службу репликации файлов.

С помощью средства администрирования DFS указывается целевая папка, которая сопоставляется корню DFS. Пользователи получают доступ к этой папке и ее подпапкам.

При использовании Windows Server 2003, Enterprise Edition или Windows Server 2003, Datacenter Edition на одном компьютере может размещаться несколько корней DFS. В серверных кластерах имя, назначенное корню DFS вне кластера на локальном запоминающем устройстве узла, должно отличаться от имени корня DFS в кластере на устройстве хранения данных кластера.

Большие доменные пространства имен DFS могут вызвать заметное увеличение сетевого трафика в связи с размером объекта DFS Active Directory. Поэтому рекомендуется использовать не более 5000 ссылок DFS для корня домена. Рекомендуемый размер пространства имен для изолированного корня - не более 50 000 ссылок на серверах под управлением Windows Server 2003.

Если в пространство имен DFS включены корни и корневые папки, которые размещены как на компьютерах под управлением ОС семейства Windows Server 2003, так и под управлением Windows 2000, необходимо выполнять администрирование этих корней с компьютера под управлением Windows Server 2003 или же с компьютера с установленным пакетом средств администрирования Windows Server 2003 Administration Tools Pack. Нельзя управлять этим пространством имен DFS с компьютера под управлением Windows 2000.

Чтобы вносить изменения в существующее пространство имен DFS, необходимо быть членом группы Администраторы на сервере, на котором оно размещено. При этом по соображениям безопасности рекомендуется использовать команду RunAs (Запуск от имени).

Чтобы создать корень DFS выполните следующие действия:

Созданный корень отобразится в консоли Распределенная файловая система DFS.

Добавление корневой целевой папки.

Указание нескольких корневых целевых папок для доменного корня позволяет поддерживать работоспособность распределенной файловой системы, связанной с этим корнем DFS, в тех случаях, когда несущий сервер становится недоступен по каким-либо причинам.

Чтобы добавить корневую целевую папку, выделите корень домена и в меню Действие выберите команду Создать корневую целевую папку . Будет запущен Мастер создания нового корня.

Добавление ссылок.

Ссылка распределенной файловой системы DFS - элемент пространства имен DFS, который находится под корнем и ссылается на одну или несколько целевых папок. Вместо реального имени и физического расположения целевой папки пользователи, работающие с пространством имен DFS, видят имя ссылки, показанное как папка, расположенная под корнем. Поскольку имена ссылок не ограничены именем или расположением целевой папки, можно делать их осмысленными для пользователей. Например, можно создать ссылку «Маркетинг», указывающую на одну или несколько целевых папок, содержащих сведения о маркетинге, независимо от их реальных имен и расположения.

Откройте оснастку Распределенная файловая система DFS.
В дереве консоли выделите корень DFS.
В меню Действие выберите Создать ссылку .
В поле Имя ссылки введите имя новой ссылки, в поле Путь к целевой общей папке укажите путь к новой ссылке или нажмите кнопку Обзор , чтобы выбрать имеющуюся общую папку из списка.

Введите комментарий, если требуется дальнейшая идентификация или описание этой ссылки. Введите длительность кэширования этой ссылки (время в секундах) для клиентов DFS и нажмите кнопку OK .

Добавление целевых папок.

Для каждой ссылки DFS можно создать набор целевых папок, на который указывает эта ссылка. Первая папка добавляется в этот набор при создании ссылки DFS. Последующие целевые папки добавляются из диалогового окна Новая целевая папка средства администрирования DFS.

Можно выбрать, какие целевые папки из набора будут участвовать в репликации. Если добавляются целевые папки для корней DFS в домене, необходимо также выполнить следующие действия:

Задать политику репликации для целевых папок.
Проверить состояние репликации.

Чтобы добавить целевую папку выполните следующие действия:

Резервное копирование и восстановление базы данных.

Резервное копирование и восстановление базы данных DFS, работающей на сервере в домене, осуществляется стандартным способом резервного копирования, используемом в Active Directory.

Для резервного копирования и восстановления базы данных DFS, работающей на автономном сервере, используется утилита командной строки dfscmd. Она создает пакетный (текстовый) файл, содержащий информацию о корне DFS.

Следующие примеры показывают применение утилиты dfscmd (замените Имя_домена и Имя_корня на соответствующие имена).

Для резервного копирования корня DFS используйте следующую запись:

dfscmd /view \\Имя_домена\Имя_корня /batch > dfs_backup.bat

Для резервного копирования корня DFS без проверки правильности ссылок и целей используйте следующую запись:

dfscmd /view \\Имя_домена\Имя_корня /batchrestore > dfs_backup.bat

Для восстановления структуры DFS используйте следующую запись:

dfscmd /view \\Имя_домена\Имя_корня /restore > dfs_backup.bat

Теневые копии общих папок.

Теневые копии общих папок представляют собой копии файлов, расположенных на общих ресурсах, таких как файл-сервер, соответствующие определенному моменту. Теневые копии позволяют просматривать содержимое общих папок по состоянию на тот или иной момент в прошлом.

Теневые копии используются для восстановления файлов, которые были случайно удалены или перезаписаны, а также для сравнения различных версий файлов.

Планирование теневого копирования.

Прежде чем включать теневые копии общих папок и задавать параметры расписания, спланируйте работу теневого копирования, пользуясь следующими рекомендациями:

Выберите в качестве хранилища теневых копий том, для которого не выполняется теневое копирование. Использование отдельного тома или другого диска дает два преимущества. Во-первых, устраняется возможность удаления теневых копий из-за высокой загрузки ввода/вывода. Во-вторых, такая конфигурация обеспечивает лучшую производительность. Она рекомендуется для интенсивно используемых файловых серверов.
Настройте расписание теневого копирования так, чтобы оно соответствовало расписанию работы клиентов.
При создании теневых копий присоединенные диски копироваться не будут. Теневые копии следует включать только для томов без точек подключения или в тех случаях, когда копирование общих ресурсов на присоединенном томе нежелательно.
Если включена возможность загрузки предыдущей версии Windows (например, Windows NT 4.0), при загрузке старой версии существующие теневые копии могут быть повреждены и могут оказаться непригодными для использования после того, как компьютер снова будет запущен под управлением Windows Server 2003.
Теневые копии общих папок не могут служить заменой регулярной архивации. Для максимальной готовности к восстановлению данных следует использовать программу архивации в координации с теневым копированием общих папок.
По умолчанию копирование выполняется в 7:00 и 12:00 с понедельника по пятницу. Если вы считаете, что оно должно производиться чаще, убедитесь, что выделено достаточно места и что производительность сервера не падает из-за слишком частого копирования. На томе можно сохранить до 64 копий, прежде чем самая старая копия будет удалена. Если теневое копирование выполняется слишком часто, этот предел может быть достигнуто очень скоро, что приведет к быстрой потере старых копий.
Если том удален, а задача теневого копирования не удалена, она не будет выполнена и в журнал событий будет записано событие с кодом 7001. Удаление задачи позволит избежать заполнения журнала событий такими ошибками.
Если планируется выполнять дефрагментацию исходного тома, для которого будут включены теневые копии общих папок, рекомендуется при его первом форматировании установить размер кластера не меньше 16 КБ. В противном случае количество изменений, вызванных дефрагментацией, приведет к удалению предыдущих версий файлов.
Если на исходном томе должно применяться сжатие файлов NTFS, размер кластера не может быть больше 4 КБ. В этом случае, если выполняется дефрагментация очень фрагментированного тома, старые теневые копии могут потеряться быстрее, чем предполагалось.

Включение теневых копий общих папок.

Чтобы включить теневые копии общих папок выполните следующее:

Для выполнения этой процедуры необходимо входить в группу Администраторы на локальном компьютере или получить соответствующие полномочия путем делегирования. Если компьютер присоединен к домену, эту процедуру могут выполнять члены группы Администраторы домена.

Настройка параметров.

В следующей таблице перечислены параметры службы теневого копирования, которые можно настраивать:

Параметр	Описание
Место хранения	Задает том, на котором сохраняются теневые копии. По умолчанию это том, содержащий исходные файлы. Для повышения быстродействия на интенсивно используемых файловых серверах рекомендуется использовать отдельный том на другом диске. Смена тома хранилища возможна только при отсутствии теневых копий. Чтобы сменить том хранилища для тома, на котором уже включены теневые копии, необходимо сначала удалить все теневые копии на этом томе.
Максимальный размер	Задает максимальный объем на конкретном томе, который может использоваться для хранения теневых копий. По умолчанию размер хранилища составляет 10% от размера тома, содержащего исходные файлы, для которых создаются теневые копии. Если теневые копии и исходные файлы хранятся на разных томах, следует изменить этот стандартный параметр, чтобы он отражал размер хранилища, который требуется выделить для теневых копий. Максимальный размер должен быть не меньше 100 мегабайт (МБ); использование этого ограничения позволяет сохранять только одну теневую копию. Если установлено жесткое ограничение на объем, следует убедиться, что для запланированных теневых копий хватает места. Удаление теневых копий без возможности восстановления из-за ограничений хранилища делает бессмысленным включение теневых копий общих папок.. Чтобы сравнить объем дискового пространства, используемого на томе хранилища, с максимальными ограничениями хранилища, нажмите кнопку *Сведения* .
Расписание	Задает параметры создания расписания для регулярного выполнения теневого копирования. Следует планировать теневое копирование на время, наиболее удобное для пользователей. По умолчанию копирование выполняется в 7:00 и 12:00 с понедельника по пятницу.

Чтобы изменить параметры теневых копий общих папок выполните следующее:

На одном томе может быть сохранено не более 64 теневых копий. По достижении этого предела самые старые копии будут удаляться без возможности восстановления.

Технологии сжатия файлов на томах NTFS.

Сжатие файлов, папок и программ позволяет сократить их размер и уменьшить объем пространства, занимаемого ими на дисках или устройствах со съемными носителями. Сжатие диска приводит к уменьшению объема пространства, занимаемого всеми файлами и папками на этом диске.

Windows Server 2003 поддерживает два вида сжатия файлов: сжатие NTFS и ZIP-папки.

Сжатие NTFS

Сжатие файлов доступно только на дисках NTFS-формата. Чтобы определить, отформатирован ли диск в файловой системе NTFS, откройте папку Мой компьютер, щелкните диск правой кнопкой мыши и выберите команду Свойства . Файловая система будет показана на вкладке Общие .
*Средствами NTFS можно сжимать как отдельные файлы и папки, так и диски NTFS целиком.
*Можно сжать папку, не сжимая ее содержимого.
*С файлами, сжатыми средствами NTFS, можно работать, не распаковывая их.
*Имена файлов и папок, сжатых средствами NTFS, можно для удобства выделять на экране другим цветом.
*При работе с файлами, сжатыми средствами NTFS, может наблюдаться некоторое снижение быстродействия. При открытии сжатого файла Windows автоматически распаковывает его, а при закрытии снова сжимает. Эти действия могут неблагоприятно отразиться на производительности компьютера.
*Файлы и папки, сжатые средствами NTFS, остаются в сжатом виде только на то время, пока они хранятся на диске NTFS.
*Файл, сжатый средствами NTFS, нельзя шифровать.
*В Windows XP Home Edition не поддерживается шифрование файлов NTFS.

ZIP-папки

ZIP-папки не поддерживаются в Windows XP 64-Bit Edition и 64-разрядных версиях семейства продуктов Windows Server 2003.

Сжатие NTFS.

Чтобы сжать файл или папку на диске NTFS выполните следующие действия:

При копировании файла в сжатую папку он автоматически сжимается. Однако, при перемещении файла в сжатую папку, находящуюся на этом же диске, файл сохраняется в исходном состоянии (сжатом или несжатом). При перемещении файла с другого диска NTFS в сжатую папку, также производится его сжатие.

Файлы и папки, сжимаемые средствами NTFS, нельзя шифровать.

ZIP-папки.

Чтобы создать ZIP-папку выполните следующие действия:

Откройте папку Мой компьютер.
Дважды щелкните диск (папку).
Щелкните правой кнопкой мыши файл (папку), который требуется сжать, и выберите команду Отправить -> Сжатая ZIP-папка.
Запускается процесс сжатия файла (папки), в результате которого создается на том же диске (папке) новая папка с именем сжимаемого файла (папки), но с расширением.zip.

При перемещении или копировании файла в ZIP-папку он автоматически сжимается.

Создание общих веб-папок.

Если вы установили службу Internet Information Services (IIS), то вы можете предоставлять папки для общего доступа пользователям вашей сети через браузер (например, Internet Explorer). Для предоставления общего доступа к папке выполните следующее:

По завершении настройки пользователи вашей сети смогут осуществлять доступ к папке через веб-браузер вводя в адресной строке полный путь к папке:

http://win2003s.test.fio.ru/tools

Прежде чем давать общий доступ через веб к папке, поместите в нее файл Default.htm, который будет открываться первым при обращении к данной папке.

Распределенная файловая система (Distributed File System – DFS) предоставляет возможность просто и прозрачно управлять сетевыми дисками. Вместо использования физического расположения сетевого ресурса (по имени сервера), пользователи могут просто подключаться к корню распределенной файловой системы.

Корень распределенной файловой системы выступает в роли логической точки распределения сетевых дисков. Это значит, что пользователи могут просто перейти к корню распределенной файловой системы и просматривать список папок подключенных к этому корню. При щелчке на папке, пользователь может просматривать ее содержимое. Но пользователь может и не подозревать, что содержимое папки находится на другом сервере.

Все это значит, что распределенная файловая системе предоставляет дополнительный уровень прозрачности при доступе к содержимому сетевых ресурсов. Многие ссылаются на эту концепцию, как на виртуализацию хранения (storage virtualization). При использовании распределенной файловой системы пользователю не обязательно знать, где физически находятся данные. Вместо этого достаточно помнить расположение корня файловой системы.

Логически управляя расположением сетевых дисков можно перемещать данные между серверами в сети прозрачно для пользователей. С точки зрения пользователей, данные будут продолжать находиться в корне распределенной файловой системы. Все, что для этого необходимо, это скопировать данные в другое место и обновить ссылку распределенной файловой системы на совместно используемый объект, чтобы она отражала новое расположение.

Кроме предоставления прозрачного доступа к хранилищам данных, общие папки, управляемые распределенной файловой системой, можно настроить в качестве партнеров по репликации. Это позволяет предоставить уровень устойчивости к ошибкам и балансировку нагрузки (автоматически выполняется средствами распределенной файловой системы).

Репликация данных выполняется Службой репликации файлов (Fire Replication Service - FRS) , которая также занимается репликацией папки SYSVOL с объектами групповой политики Active Directory.

При первой настройке распределенной файловой системы необходимо указать начальную точку для дерева распределенной файловой системы. Она известна под именем корень распределенной файловой системы. Существует два типа корня распределенной файловой системы:

Изолированный корень (Standalone) - конфигурация пространства имен распределенной файловой системы и архитектура хранятся локально на корневом сервере. Путь доступа (путь UNC) к корню начинается с имени сервера. Изолированный корень позволяет существование только одного корня распределенной файловой системы для пространства имен распределенной файловой системы. Это значит, что корень не предоставляет устойчивости к ошибкам и представляет единственную точку отказа при доступе к данным.
Домен (Domain) - пространство имен распределенной файловой системы храниться в Active Directory. При использовании домена распределенной файловой системы можно создавать несколько устойчивых к ошибкам корней распределенной файловой системы, а клиенты будут получать доступ к распределенной файловой системе по имени домена. Использование интеграции в Active Directory позволяет клиентам автоматически быть перенаправленными к корню распределенной файловой системы в локальном сайте Active Directory, что имеет определенные преимущества в больших сетях, где инфраструктура распределенной файловой системы может простираться на несколько сайтов.

Еще одним термином, который необходимо знать, является Связь распределенной файловой системы (DFS link) . Корни являются точками начала распределенной файловой системы. При добавлении связей определяются имена сетевых дисков и расположения сетевых данных. Когда пользователь получает доступ к корню распределенной файловой системы, связи отображаются в виде логических подпапок корня.

Поскольку в сетях широко распространены общие файлы, администраторы все чаще сталкиваются с проблемами при предоставлении доступа пользователям к необходимым им данным. В операционной системе Windows 2000 распределенная файловая система (Distributed File System, DFS) предоставляет администраторам механизм для создания логических представлений каталогов и файлов независимо от того, где эти файлы физически находятся в сети. Кроме того, благодаря использованию DFS обеспечивается отказоустойчивость сетевых ресурсов хранения.

На этой странице

Введение

Поскольку в сетях широко распространены общие файлы, администраторы все чаще сталкиваются с проблемами при предоставлении доступа пользователям к необходимым им данным. В операционной системе Windows 2000 распределенная файловая система предоставляет администраторам механизм для создания логических представлений каталогов и файлов независимо от того, где эти файлы физически находятся в сети. Кроме того, благодаря использованию DFS обеспечивается отказоустойчивость сетевых ресурсов хранения. В этом руководстве описано, как использовать мастер создания нового корня DFS (New DFS Root Wizard), а также другие средства для работы с DFS.

Предварительные условия

В примерах, приведенных в этом документе, подразумевается, что уже сконфигурирована и используется служба каталогов Active Directory, и у Вас имеются права администратора домена и сервера, на котором будет конфигурироваться DFS. Для этой цели Вы можете воспользоваться базовой инфраструктурой, описанной в Пошаговом руководстве по развертыванию базовой инфраструктуры Windows 2000 Server (Step-by-Step Guide to a Common Infrastructure for Windows 2000 Server Deployment) http://www.microsoft.com/windows2000/techinfo/planning/server/serversteps.asp (EN).

Использование оснастки Распределенная файловая система DFS

В этом пошаговом руководстве описывается, как использовать оснастку . Хотя установка службы DFS производится автоматически при установке ОС Windows 2000 Server, Вы должны сконфигурировать DFS для обеспечения доступа клиентов к общим сетевым ресурсам. Для выполнения этих процедур Вам необходимо войти на контроллер домена под учетной записью администратора домена.

В операционной системе Windows 2000 распределенная файловая система может быть интегрирована со службой каталогов Active Directory для обеспечения отказоустойчивости корней DFS, располагающихся как на контроллерах домена Windows 2000 так и на рядовых серверах. Если в Вашем домене Windows 2000 имеется несколько серверов, любое количество этих серверов может использоваться в качестве хостов для обеспечения отказоустойчивости конкретного корня DFS. Служба каталогов Active Directory используется для обеспечения совместного использования контроллеров домена в общей топологии DFS, обеспечивая таким образом избыточность и отказоустойчивость.

Вы можете также создать изолированный сервер DFS, однако, при этом Вы не получите преимуществ службы каталогов Active Directory, и не будет обеспечена отказоустойчивость корневого уровня. Контроллер домена может быть несущим только для одного корня DFS, но в действительности нет ограничений на количество корней DFS в каждом домене. Каждый корень DFS могут поддерживать до 32 контроллеров домена. В домене может поддерживаться несколько корневых томов DFS. Дополнительные компьютеры, которые поддерживают корневые или дочерние узлы (ссылки), позволяют улучшить распределение нагрузки, повысить отказоустойчивость и обеспечить обслуживание сетевых клиентов на основе их принадлежности определенным сайтам сети. Ссылки DFS, указанные в корне, задаются с помощью UNC-пути, доступного для сервера и клиентов DFS.

В этом руководстве Вам будет предложено создать отказоустойчивый корень DFS.

Начало работы с DFS

	Нажмите кнопку Пуск (Start) , выберите Программы (Programs) , перейдите в раздел Администрирование (Administrative Tools) и выберите Распределенная файловая система DFS (Distributed File System) .
	Щелкните правой кнопкой мыши на корневом элементе Распределенная файловая система DFS (Distributed File System) , расположенном на левой панели, и нажмите Создать корень DFS (New DFS Root) . Отобразится Мастер создания нового корня DFS (New DFS Root Wizard) . Для продолжения нажмите кнопку Далее (Next) .
	Убедитесь, что переключатель установлен в позицию Создание корень DFS в домене (Create a domain DFS root) , и нажмите кнопку Далее (Next) для продолжения.
	Выберите несущий домен для корня DFS (в нашем примере это домен reskit.com) и нажмите кнопку Далее (Next) для продолжения. Рисунок 1 – Выбор несущего домена для корня DFS
	Выберите несущий сервер для этого корня DFS. В нашем примере это сервер HQ-RES-DC-01.Reskit.com . Нажмите кнопку Далее (Next) для продолжения.
	Укажите общую папку, которая будет использоваться в качестве целевой для этого корня DFS. Установите переключатель в положение Создать новый общий ресурс (Create a new share) , введите путь к этой общей папке (в нашем случае это c:\dfsbooks) и укажите имя этой общей папки – Books . Оснастка Распределенная файловая система DFS (Distributed File System) позволит Вам создать новый каталог и настроить для него общий доступ, если ранее это не было сделано. Рисунок 2 – Выбор общей папки для корневого тома DFS
	Нажмите кнопку Далее (Next) . Если указанная папка не существует, то Вам будет задан вопрос о необходимости ее создания. Нажмите кнопку Да (Yes) для продолжения. По желанию Вы можете ввести комментарий с описанием этого корня. Для продолжения нажмите кнопку Далее (Next) .
	Нажмите кнопку Готово (Finish) для создания корня DFS. После завершения работы мастера создания нового корня DFS (Create New DFS Root Wizard) Вы можете приступать к администрированию Вашего корня DFS.

Если у Вас имеется несколько контроллеров домена, обеспечивающих отказоустойчивость DFS, помните, что для отказоустойчивости DFS используется служба каталогов Active Directory, которая хранит сведения о топологии. Следовательно, необходимо, чтобы сведения о топологии реплицировались между контроллерами домена. Обновление конфигурации DFS изначально производится на одном из серверов домена Windows 2000, который содержит корень DFS. Различные контроллеры домена могут содержать различные данные о текущем состоянии конфигурации DFS, пока мастером репликации не будут реплицированы сведения об изменениях конфигурации DFS между всеми контроллерами доменов. Корень DFS и все его ссылки хранятся в виде единого элемента, имеющего тип – большой бинарный объект (Binary Large Object, BLOB). После осуществления изменений в этом большом бинарном объекте, необходимо выполнение репликации всего бинарного объекта целиком так, чтобы эти изменения были отражены на всех контроллерах домена в домене.

Репликация данных между двумя контроллерами домена, расположенными в пределах одного сайта занимает около пяти минут, и как минимум 15 минут для контроллеров домена, находящихся в различных сайтах. Пока репликация не будет выполнена, конфигурация DFS , отображаемая с помощью оснастки Распределенная файловая система DFS (Distributed File System)на различных клиентах, может различаться. Вы можете воспользоваться кнопкой Обновить (Refresh) для обновления отображаемых сведений о текущем состоянии хоста DFS.

Если Вы выполнили описанные выше процедуры, то сейчас в Вашей сети имеется пустой корень DFS в службе каталогов Active Directory. Чтобы эта общая папка представляла интерес для пользователей, Вам необходимо опубликовать в ней нелокальные общие папки данного пространства имен DFS.

Для публикации нелокальной общей папки

	Щелкните правой кнопкой мыши на созданном Вами корневом объекте DFS и затем нажмите Создать ссылку DFS (New DFS Link) .
	Щелкните правой кнопкой мыши на объекте \\Reskit.com\Books .

	Определите каталог для данной ссылки. В нашем примере названием ссылки будет ART . Укажите действительный UNC-адрес общей папки Windows 2000, находящейся в Вашей сети, в поле Переадресовать пользователя на эту общую папку (Send the user to this network path) . Для этих целей можно также воспользоваться кнопкой Обзор (Browse) . В нашем примере используется общая папка Architecture , расположенная на сервере BR3-VAN-SRV-01 , который входит в домен Vancouver . Примечание. Эта общая папка была предварительно создана для этого упражнения. Рисунок 3 – Выбор общей папки
	Нажмите кнопку OK . Вы можете опционально указать комментарий и значение таймаута. Значение таймаута определяет число секунд, на которое клиентами кэшируется указатель, и по истечении которого они должны будут обновить указатель с одного из несущих DFS-серверов.
	Если имеется несколько серверов для конфигурирования (например, на двух серверах, один из которых находится в Хартфорде, а второй – в Сиэтле, содержится идентичная информация), то Вы можете добавить их для этого набора реплик. Для этого на значке общей папки, опубликованной в корневом DFS, щелкните правой кнопкой мыши и нажмите Создать реплику (New Replica) .
	Выберите общую папку \\Reskit\BR2-RES-SRV-01\Engineering Diagrams и нажмите кнопку OK .
	Нажмите OK еще раз.
	Щелкните правой кнопкой мыши на подключенной ссылке и нажмите Политика репликации (Replication Policy) . Выберите каждую общую папку и нажмите кнопку Подключить (Enable) , затем нажмите кнопку OK .

Примечание . Для возможности использования репликации общие папки корня или ссылок DFS должны располагаться на томах NTFS 5.0, находящихся на контроллере домена Windows 2000 или на рядовых серверах. Флагом Основной (Primary) помечены конкретные файлы и папки серверов, указанные для принудительной начальной репликации, после выполнения которой будут осуществляться штатные репликации.

Рисунок 5 – Политика репликации
На рисунке, представленном ниже, изображена оснастка DFS после выполнения описанных процедур.

Рисунок 6 – Корень DFS

Проверка механизма DFS

Любой пользователь, вошедший в домен Windows 2000, теперь сможет получить доступ к отказоустойчивой распределенной файловой системе. Полагая, что у него имеются соответствующие права, он может настроить индивидуальные подключения, выполнив следующую процедуру:

В рабочем окружении этот сетевой диск физически может располагаться на другом сервере или рабочей станции. Любой пользователь, получивший доступ к отказоустойчивой общей папке, может продолжать работу, не прерываясь. Плановые мероприятия, проводящиеся на сервере такие как, обновления программного обеспечения и другие задачи, которые обычно требуют отключения сервера, теперь могут выполняться, не влияя на работу пользователей.

Чтобы получить доступ к корню DFS с помощью Проводника (Windows Explorer)

Нажмите Пуск (Start) , нажмите Выполнить (Run) и введите \\reskit.com\book в текстовом поле Открыть (Open) и нажмите OK .

Щелкнув правой кнопкой мыши по отображенной на панели обозревателя ссылке, выбрав Свойства (Properties) , Вы можете перейти на вкладку DFS диалогового окна Свойства (Properties) для просмотра следующей информации:

В случае физического отключения одного из двух серверов у Вас все равно будет доступ к ресурса по тому же пути DFS. При этом, если один из серверов пространства имен DFS, поддерживающих корень или ссылку DFS, станет недоступен, то будет автоматически выполнен перенос подключения на другой доступный общий сетевой ресурс. Заметим, что это возможно только для отказоустойчивых корневых и дочерних узлов, содержимое которых продублировано на нескольких серверах.

Примечание . В данное время, DFS поддерживает службу кластеров (Microsoft Cluster Service), используя только DFS на основе отдельных компьютеров, поэтому Вы не можете создать отказоустойчивую топологию DFS, работающую в кластере, поскольку кластер выступает в роли единого компьютера.

Репликация

Если Вы используете отказоустойчивую распределенную файловую систему в окружении, в котором имеется множество контроллеров домена, важно определить время, которое необходимо для выполнения репликации данных между контроллерами домена, требуемое для конкретной конфигурации DFS. Для немедленной репликации Вам понадобиться инструмент REPLMon , который Вы можете установить из папки support\tools, находящейся на компакт-диске Windows 2000 Server.

Клиенты, которые до сих пор используют ранние версии операционных систем (например, Windows NT 4.0), и которым необходимо использовать возможности DFS, не смогут воспользоваться отказоустойчивостью корня DFS. Однако, такие клиенты могут напрямую подключаться к конкретным корням DFS, которые входят в состав отказоустойчивой распределенной файловой системы. В таком случае при использовании команды Net use необходимо заменить имя домена на имя конкретного компьютера.

Рабочие станции, работающие под управлением Windows NT и использующие DFS, могут также определить, какую общую папку они используют в текущий момент. Для этого необходимо воспользоваться вкладкой DFS , находящейся в диалоговом окне Свойства (Properties) общей папки в проводнике (Windows Explorer).

Примечание. Большинство административных функций могут быть выполнены из командной строки или с помощью файла-сценария с использованием утилиты DFSCMD.EXE. Введите в командной строке DFSCMD /? для получения краткой справки по команде.

Рисунок 7 – Просмотр свойств DFS
При необходимости Вы всегда можете изменить свойства этого объекта.

Также Вы можете опубликовать Ваш отказоустойчивый DFS корень, как общую папку в Active Directory, и получать к ней доступ с использованием обозревателя службы каталогов. Откройте оснастку Active Directory – пользователи и компьютеры (Active Directory Users and Computers) , щелкните правой кнопкой мыши на объекте Вашего домена, нажмите Создать (New) , выберите опцию Общие папки (Shared Folders) и введите соответствующую информацию.

NFS - это самый известный механизм совместного доступа к файлам для Linux и других Unix-систем, потому что он присутствует во многих Unix-подобных системах и очень прост в настройке. NFS поддерживается ядром Linux, и утилиты, связанные с NFS, присутствуют в каждом дистрибутиве. Но в мире Linux существуют и более современные механизмы для совместного использования файлов и каталогов. Каждый из них имеет определенные преимущества в настройке или в использовании.

Распределенная файловая система OpenAFS - это Open Source-аналог известной коммерческой распределенной файловой системы AFS. Поддержка для распределенных файловых систем InterMezzo и Coda уже присутствует в новых ядрах Linux из серии 2.4. Новые механизмы совместного использования файлов, основанные на Web (например, WebDAV), тоже могут использоваться в качестве файловых систем.

В этой статье дается краткий обзор преимуществ распределенных файловых систем, обсуждаются самые распространенные проблемы и их решения, и описываются самые интересные из распределенных файловых систем, доступных для Linux сегодня.

Введение в распределенные файловые системы.

Сейчас сетевые файловые системы называют «распределенными». Этот термин отражает тот факт, что многие из этих файловых систем имеют гораздо больше возможностей, чем простая передача данных по сети. Носители данных, связанные с этими файловыми системами, не обязательно могут быть расположены на одном компьютере - они могут быть распределены между многими компьютерами.

Распределенные файловые системы OpenAFS и Coda имеют собственные механизмы управления разделами, которые упрощают возможности хранения общедоступной информации. Они так же поддерживают дублирование - способность делать копии разделов и сохранять их на других файловых серверах. Если один файловый сервер становится недоступным, то все равно к данным, хранящимся на его разделах, можно получить доступ с помощью имеющихся резервных копий этих разделов.

Самое главное различие между подходом Windows / MacOS (совместное использование каталогов и дисков) и подходом Linux, MacOS X и других Unix-подобных многопользовательских операционных систем - в том, как эти операционные системы используют и организовывают разделы. Windows / MacOS экспортируют разделы как отдельные каталоги или диски, и удаленные системы, которые хотят обратиться к общедоступным устройствам, должны обязательно подключить их к себе.

Когда самый высокий уровень организации в файловой системе - это раздел диска (например, как в файловых системах Windows), рабочие станции клиентов для получения доступа к этим данным должны обязательно подключиться к разделу и назначить ему отдельную букву в своей локальной раскладке (например, диск E, F, G, и т.д). Буквы могут быть назначены сетевым разделам в пользовательских и групповых профилях Windows (для стандартизации). Но, к сожалению, не на всех компьютерах расположение букв может быть одинаковым. Например, на компьютере с большим количеством жестких дисков и разделов нужные буквы могут быть заняты, и поэтому придется давать сетевым разделам другие обозначения.

Напротив, файловая система Unix - это иерархическая файловая система, к которой дополнительные разделы добавляются с помощью монтирования их к существующей директории. Это позволяет эффективно добавить любой источник данных в любую существующую файловую систему. Если вы монтируете новый источник информации к каталогу, являющемуся частью распределенной файловой системы, он сразу же становится доступным всем клиентам этой распределенной системы.

Современные распределенные файловые системы типа OpenAFS или Coda включают в себя специальные сервисы для управления разделами. Это позволяет вам смонтировать разделы различных файловых серверов в центральную иерархию директорий, поддерживаемую файловыми системами. OpenAFS использует центральный каталог, называемый «/afs», а Coda использует «/coda». Эти иерархии директорий доступны всем клиентам распределенной файловой системы, и выглядят одинаково на любой из клиентских рабочих станций. Это дает возможность пользователям работать со своими файлами одинаково на любом компьютере. Если ваш настольный компьютер не работает, вы совершенно спокойно можете использовать любой другой - все ваши файлы находятся в безопасности на сервере.

Распределенные файловые системы, предоставляющие одни и те же данные многим различным компьютерным системам, дают пользователям возможность использовать любую операционную систему, лучше всего подходящую для их задач. Пользователи Macintosh могут пользоваться всеми преимуществами графических инструментальных средств, доступных в Mac OS, и одновременно хранить свои данные на централизованных файловых серверах. Пользователи Windows так же могут иметь доступ к устойчивой глобальной файловой системе. Распределенные файловые системы особенно привлекательны при попытке координации работы между группами, расположенными в различных городах, государствах, или даже в разных странах. Преимущество - общие данные всегда доступны по сети, независимо от вашего местонахождения.

Проблемы администрации распределенных файловых систем.

Использование распределенных файловых систем дает системным администраторам не только новые возможности, но и новые проблемы. Но распределенные системы способны упростить многие из стандартных административных задач. В сетевой среде пользователи должны иметь возможность зайти в сеть под своим именем с любого компьютера. Это значит, что механизм входа в сеть (или аутентификации) тоже должен быть сетевым. Поэтому в среде распределенной файловой системы файлы групп и паролей, расположенные на индивидуальных компьютерах, вторичны по отношению к сетевым механизмам аутентификации (таким, как Kerberos или NIS, которые предоставляют пользователям возможность работать на любом компьютере). Но стандартные локальные механизмы проверки пароля все же должны существовать, чтобы администраторы могли выполнять на локальных компьютерах необходимые задачи.

Сохранение общих данных на централизованных файловых серверах (а не на индивидуальных компьютерах) упрощает такие административные задачи, как резервирование и восстановление файлов и каталогов. Это так же централизует такие стандартные административные задачи, как контроль за использованием файловой системы, и представляет новые возможности управления хранением данных - например, балансирование загрузки. Распределенные файловые системы типа OpenAFS и Coda обеспечивают встроенные логические системы управления разделами, которые дают администраторам возможность переместить интенсивно используемые данные на более мощные или менее используемые компьютеры. Если распределенная файловая система поддерживает дублирование, копии интенсивно используемых данных могут распределяться между многими файловыми серверами. Это может уменьшить нагрузку на сеть, и облегчить работу серверов. Распределенные файловые системы используют логические разделы вместо физических дисковых разделов, и это позволяет легко добавить в сеть новую свободную память прямо во время работы. (Для добавления нового диска в локальный компьютер пришлось бы потратить некоторое время).

Использование распределенных файловых систем так же облегчает возможность совместного доступа к программному и аппаратному обеспечению. Но перед этим нужно удостовериться, что лицензии к используемым программам разрешают установку программного обеспечения в распределенной файловой системе. Сервера печати - одна из первоначальных причин появления среды «клиент-сервер». Распределенные файловые системы так же упрощают совместный доступ к специализированным аппаратным средствам, соединяясь по сети с компьютером, на котором установлены нужные аппаратные средства, и при этом все еще имея доступ к вашим данным.

Использование централизованной распределенной файловой системы может обеспечивать существенные преимущества в стоимости и быстродействии выполнения работы для клиентских систем. Распределенные файловые системы существенно уменьшают аппаратные затраты, минимизируя количество памяти на любом десктопе или ноутбуке. Использование распределенной файловой системы в качестве архива для пользовательских данных обычно означает более быструю загрузку клиентских машин, потому что большое количество данных больше не хранится локально и поэтому не нуждается в проверке после перезапуска клиента. Комбинация распределенной файловой системы и использования журналируемых файловых систем на клиентских компьютерах может дать значительное увеличение скорости запуска системы.

Поддержка автономной работы с данными.

Использование распределенной файловой системы увеличивает зависимость компьютерных систем от сети. Эта зависимость от данных, к которым люди могут обращаться только по сети, вызывает некоторые интересные проблемы для пользователей лаптопов/мобильных компьютеров, которые нуждаются в доступе к своим данным даже тогда, когда доступ к сети невозможен. Это называется «автономная работа» - система должна функционировать, если ресурсы, которые обычно присутствуют в сети (например, пользовательские данные), по каким-то причинам не доступны. Даже Windows обеспечивает графический интерфейс для возможности маркировки файлов, с которыми вы хотите работать, когда вы отключены от сети, и для синхронизации этих файлов, когда вы соединяетесь повторно.

Распределенные файловые системы Coda и InterMezzo, которые являются в настоящее время доступными для Linux, тоже обеспечивают интегрированную поддержку для автономной работы. Так же сейчас ведется работа над обеспечением этой возможности для файловых систем NFS. Coda и InterMezzo уже поддерживаются ядром Linux - поддержка Intermezzo встроена в ядро, начиная с версии 2.4.5, а Coda вообще была интегрирована в ядро 2.4 с самого начала.

Coda - распределенная файловая система с происхождением из OpenAFS, которая разрабатывается в университете Carnegie Mellon с 1987 года. InterMezzo - относительно новая распределенная файловая система, упор в разработке которой сделан на высокой доступности, гибком дублировании каталогов, поддержке автономных операций, и постоянном кэшировании. Создатели InterMezzo были вдохновлены CMU Coda, но этот проект не основан на исходном тексте Coda. Начальный создатель InterMezzo, Питер Браам, был главой проекта Coda в CMU в течение нескольких лет, и после этого он сам начал разрабатывать InterMezzo и несколько других проектов.

Расширение файловых систем с помощью Web.

До создания распределенных файловых систем совместное использование файлов через сеть ограничивалось простыми передачами файлов с помощью использования протокола передачи файлов - FTP (File Transfer Protocol). Появление Всемирной паутины в значительной степени упростила процесс работы с FTP - теперь не нужно знать команды, потому что протокол FTP интегрирован в большинство броузеров. Способность легко передавать файлы через Web также вела к расширению Паутины и существенному улучшению основного протокола передачи гипертекста - HTTP (HyperText Transfer Protocol), который сейчас является основанием для многих систем распределенного использования файлов.

Самая известная из них - это WebDAV, которая расшифровывается как «Web-система распределенной авторизации и контроля версий» (Web-enabled Distributed Authoring and Versioning). WebDAV - это набор расширений к протоколу HTTP, обеспечивающий совместную среду для пользователей, которая позволяет им скачивать, упорядочивать и редактировать файлы, хранящиеся на Web-серверах.

Поддержка WebDAV встроена во многие популярные Web-серверы, например - Apache, где это основывается на опознавательных механизмах сервера. (От простых файлов.htaccess до интегрированных NIS, LDAP, или даже механизма аутентификации Windows). Использование WebDAV для доступа и модификации файлов через Web встроено в операционные системы Mac OS X, в новые версии Microsoft Internet Explorer, а так же доступно и в Linux при использовании таких приложений, как менеджер файлов Nautilus. Хотя это и не файловая система в традиционном смысле, но вы можете даже смонтировать WebDAV в Линуксе, используя загружаемый модуль ядра под названием davfs.

WebDAV обеспечивает такие стандартные для распределенных систем возможности, как блокировка файлов, создание, переименование, копирование, удаление файлов, а так же поддерживает такие продвинутые возможности, как meta-данные файла (более подробная информация о файле - заголовок, тема, создатель, и т.д). В ближайшем будущем WebDAV будет включать интегрированную поддержку управления версиями, которая упростит работу многих пользователей над общими файлами, отслеживая изменения, авторов этих изменений, и другие аспекты общего использования документа. Эти возможности контроля над версиями обеспечиваются в соответствии с протоколом DeltaV, который активно разрабатывается Рабочей группой DeltaV - подразделением Проектировочной группы Интернета (IETF - Internet Engineering Task Force). Некоторые проекты, например, Subversion (WebDAV и DeltaV-основанная замена стандарту CVS), уже доступны в альфа-версии. Subversion обеспечивает систему контроля над версиями и сохранение архива файла на основе базы данных, имеющей API языка C, и моделирует версионную файловую систему, легко доступную через Web.

Вывод.

Многие IT-специалисты, ответственные за вычислительные системы предприятий, уже используют сетевые файловые системы (NFS), или адаптеры файловых систем (Samba, Netatalk, или Novell) для объединения своих сетей. Более новые и более функциональные распределенные файловые системы - такие, как OpenAFS, Coda, InterMezzo и WebDAV - могут стать альтернативой, потому что они имеют более высокое быстродействие, улучшенную защиту, и дополнительные возможности управления разделами и создания резервных копий.

Как мы увидим в дальнейших статьях из этой серии, современные распределенные файловые системы могут быть легко интегрированы в существующую сеть. Распределенные файловые системы могут обеспечить дополнительную гибкость сети, ускорить и упростить процесс совместной работы над файлами, уменьшить затраты и упростить жизнь администраторам. Современные распределенные файловые системы дают новую жизнь слогану Sun Microsystems «The Network is the computer», расширяя файловую систему по компьютерной сети.

Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Pr0grammer 29 октября 2009 в 01:31

Распределенная файловая система GFS (Google File System)

Разработка веб-сайтов

В настоящее время, в условиях роста информации, возникают задачи хранения и обработки данных очень большого объема. Поэтому эти данные обрабатывается сразу на нескольких серверах одновременно, которые образуют кластеры. Для упрощения работы с данными на кластерах и разрабатывают распределенные файловые системы. Мы подробно рассмотрим пример распределенной файловой системы Google File System , используемую компанией Google . (Статья является, фактически, вольным и урезанным переводом оригинальной статьи).

GFS является наиболее, наверное, известной распределенной файловой системой. Надежное масштабируемое хранение данных крайне необходимо для любого приложения, работающего с таким большим массивом данных, как все документы в интернете. GFS является основной платформой хранения информации в Google . GFS - большая распределенная файловая система, способная хранить и обрабатывать огромные объемы информации.
GFS строилась исходя из следующим критериев:

Система строится из большого количества обыкновенного недорого оборудования, которое часто дает сбои. Должны существовать мониторинг сбоев, и возможность в случае отказа какого-либо оборудования восстановить функционирование системы.
Система должна хранить много больших файлов. Как правило, несколько миллионов файлов, каждый от 100 Мб и больше. Также часто приходится иметь дело с многогигабайтными файлами, которые также должны эффективно храниться. Маленькие файлы тоже должны храниться, но для них не оптимизируется работа системы.
Как правило, встречаются два вида чтения: чтение большого последовательного фрагмента данных и чтение маленького объема произвольных данных. При чтении большого потока данных обычным делом является запрос фрагмента размером в 1Мб и больше. Такие последовательные операции от одного клиента часто читают подряд идущие куски одного и того же файла. Чтение небольшого размера данных, как правило, имеет объем в несколько килобайт. Приложения, критические по времени исполнения, должны накопить определенное количество таких запросов и отсортировать их по смещению от начала файла. Это позволит избежать при чтении блужданий вида назад-вперед.
Часто встречаются операции записи большого последовательного куска данных, который необходимо дописать в файл. Обычно, объемы данных для записи такого же порядка, что и для чтения. Записи небольших объемов, но в произвольные места файла, как правило, выполняются не эффективно.
Система должна реализовывать строго очерченную семантику параллельной работы нескольких клиентов, в случае если они одновременно пытаются дописать данные в один и тот же файл. При этом может случиться так, что поступят одновременно сотни запросов на запись в один файл. Для того чтобы справится с этим, используется атомарность операций добавления данных в файл, с некоторой синхронизацией. То есть если поступит операция на чтение, то она будет выполняться, либо до очередной операции записи, либо после.
Высокая пропускная способность является более предпочтительной, чем маленькая задержка. Так, большинство приложений в Google отдают предпочтение работе с большими объемами данных, на высокой скорости, а выполнение отдельно взятой операции чтения и записи, вообще говоря, может быть растянуто.

Файлы в GFS организованы иерархически, при помощи каталогов, как и в любой другой файловой системе, и идентифицируются своим путем. С файлами в GFS можно выполнять обычные операции: создание, удаление, открытие, закрытие, чтение и запись.
Более того, GFS поддерживает резервные копии, или снимки (snapshot). Можно создавать такие резервные копии для файлов или дерева директорий, причем с небольшими затратами.

Архитектура GFS

Рисунок взят из оригинальной статьи.

В системе существуют мастер-сервера и чанк-сервера, собственно, хранящие данные. Как правило, GFS кластер состоит из одной главной машины мастера (master) и множества машин, хранящих фрагменты файлов чанк-серверы (chunkservers). Клиенты имеют доступ ко всем этим машинам. Файлы в GFS разбиваются на куски - чанки (chunk, можно сказать фрагмент). Чанк имеет фиксированный размер, который может настраиваться. Каждый такой чанк имеет уникальный и глобальный 64 - битный ключ, который выдается мастером при создании чанка. Чанк-серверы хранят чанки, как обычные Linux файлы, на локальном жестком диске. Для надежности каждый чанк может реплицироваться на другие чанк-серверы. Обычно используются три реплики.
Мастер отвечает за работу с метаданными всей файловой системы. Метаданные включают в себя пространства имен, информацию о контроле доступа к данным, отображение файлов в чанки, и текущее положение чанков. Также мастер контролирует всю глобальную деятельность системы такую, как управление свободными чанками, сборка мусора (сбор более ненужных чанков) и перемещение чанков между чанк-серверами. Мастер постоянно обменивается сообщениями (HeartBeat messages) с чанк-серверами, чтобы отдать инструкции, и определить их состояние (узнать, живы ли еще).
Клиент взаимодействует с мастером только для выполнения операций, связанных с метаданными. Все операции с самими данными производятся напрямую с чанк-серверами. GFS - система не поддерживает POSIX API, так что разработчикам не пришлось связываться с VNode уровнем Linux.
Разработчики не используют кеширование данных, правда, клиенты кешируют метаданные. На чанк-серверах операционная система Linux и так кеширует наиболее используемые блоки в памяти. Вообще, отказ от кеширования позволяет не думать о проблеме валидности кеша (cache coherence).

Мастер

Использование одного мастера существенно упрощает архитектуру системы. Позволяет производить сложные перемещения чанков, организовывать репликации, используя глобальные данные. Казалось бы, что наличие только одного мастера должно являться узким местом системы, но это не так. Клиенты никогда не читают и не пишут данные через мастера. Вместо этого они спрашивают у мастера, с каким чанк-сервером они должны контактировать, а далее они общаются с чанк-серверами напрямую.
Рассмотрим, как происходит чтение данных клиентом. Сначала, зная размер чанка,
имя файла и смещение относительно начала файла, клиент определяет номер чанка внутри файла. Затем он шлет запрос мастеру, содержащий имя файла и номер чанка в этом файле. Мастер выдает чанк-серверы, по одному в каждой реплике, которые хранят нужный нам чанк. Также мастер выдает клиенту идентификатор чанка.
Затем клиент решает, какая из реплик ему нравится больше (как правило та, которая ближе), и шлет запрос, состоящий из чанка и смещения относительно начала чанка. Дальнейшее чтения данных, не требует вмешательства мастера. На практике, как правило, клиент в один запрос на чтение включает сразу несколько чанков, и мастер дает координаты каждого из чанков в одном ответе.
Размер чанка является важной характеристикой системы. Как правило, он устанавливается равным 64 мегабайт, что гораздо больше, чем размер блока в обычной файловой системе. Понятно, что если необходимо хранить много файлов, размеры которых меньше размера чанка, то будем расходоваться много лишней памяти. Но выбор такого большого размера чанка обусловлен задачами, которые приходится компании Google решать на своих кластерах. Как правило, что-то считать приходится для всех документов в интернете, и поэтому файлы в этих задачах очень большого размера.

Метаданные

Мастер хранит три важных вида метаданных: пространства имен файлов и чанков, отображение файла в чанки и положение реплик чанков. Все метаданные хранятся в памяти мастера. Так как метаданные хранятся в памяти, операции мастера выполняются быстро. Состояние дел в системе мастер узнает просто и эффективно. Он выполняется сканирование чанк-серверов в фоновом режиме. Эти периодические сканирования используются для сборки мусора, дополнительных репликаций, в случае обнаружения недоступного чанк-сервера и перемещение чанков, для балансировки нагрузки и свободного места на жестких дисках чанк-серверов.
Мастер отслеживает положение чанков. При старте чанк-сервера мастер запоминает его чанки. В процессе работы мастер контролирует все перемещения чанков и состояния чанк-серверов. Таким образом, он обладает всей информацией о положении каждого чанка.
Важная часть метаданных - это лог операций. Мастер хранит последовательность операций критических изменений метаданных. По этим отметкам в логе операций, определяется логическое время системы. Именно это логическое время определяет версии файлов и чанков.
Так как лог операций важная часть, то он должен надежно храниться, и все изменения в нем должны становиться видимыми для клиентов, только когда изменятся метаданные. Лог операций реплицируется на несколько удаленных машин, и система реагирует на клиентскую операцию, только после сохранения этого лога на диск мастера и диски удаленных машин.
Мастер восстанавливает состояние системы, исполняя лог операций. Лог операций сохраняет относительно небольшой размер, сохраняя только последние операции. В процессе работы мастер создает контрольные точки, когда размер лога превосходит некоторой величины, и восстановить систему можно только до ближайшей контрольной точки. Далее по логу можно заново воспроизвести некоторые операции, таким образом, система может откатываться до точки, которая находится между последней контрольной точкой и текущем временем.

Взаимодействия внутри системы

Выше была описана архитектура системы, которая минимизирует вмешательства мастера в выполнение операций. Теперь же рассмотрим, как взаимодействуют клиент, мастер и чанк-серверы для перемещения данных, выполнения атомарных операций записи, и создания резервной копии (snapshot).
Каждое изменение чанка должно дублироваться на всех репликах и изменять метаданные. В GFS мастер дает чанк во владение (lease) одному из серверов, хранящих этот чанк. Такой сервер называется первичной (primary) репликой. Остальные реплики объявляются вторичными (secondary). Первичная реплика собирает последовательные изменения чанка, и все реплики следуют этой последовательности, когда эти изменения происходят.
Механизм владения чанком устроен таким образом, чтобы минимизировать нагрузку на мастера. При выделении памяти сначала выжидается 60 секунд. А затем, если потребуется первичная реплика может запросить мастера на расширение этого интервала и, как правило, получает положительный ответ. В течение этого выжидаемого периода мастер может отменить изменения.
Рассмотрим подробно процесс записи данных. Он изображен по шагам на рисунке, при этом тонким линиям соответствуют потоки управления, а жирным потоки данных.

Этот рисунок также взят из оригинальной статьи.

Клиент спрашивает мастера, какой из чанк-серверов владеет чанком, и где находится этот чанк в других репликах. Если необходимо, то мастер отдает чанк кому-то во владение.
Мастер в ответ выдает первичную реплику, и остальные (вторичные) реплики. Клиент хранит эти данные для дальнейших действий. Теперь, общение с мастером клиенту может понадобиться только, если первичная реплика станет недоступной.
Далее клиент отсылает данные во все реплики. Он может это делать в произвольном порядке. Каждый чанк-сервер будет их хранить в специальном буфере, пока они не понадобятся или не устареют.
Когда все реплики примут эти данные, клиент посылает запрос на запись первичной реплике. В этом запросе содержатся идентификация данных, которые были посланы в шаге 3. Теперь первичная реплика устанавливает порядок, в котором должны выполняться все изменения, которые она получила, возможно от нескольких клиентов параллельно. И затем, выполняет эти изменения локально в этом определенном порядке.
Первичная реплика пересылает запрос на запись всем вторичным репликам. Каждая вторичная реплика выполняет эти изменения в порядке, определенном первичной репликой.
Вторичные реплики рапортуют об успешном выполнении этих операций.
Первичная реплика шлет ответ клиенту. Любые ошибки, возникшие в какой-либо реплике, также отсылаются клиенту. Если ошибка возникла при записи в первичной реплике, то и запись во вторичные реплики не происходит, иначе запись произошла в первичной реплике, и подмножестве вторичных. В этом случае клиент обрабатывает ошибку и решает, что ему дальше с ней делать.

Из примера выше видно, что создатели разделили поток данных и поток управления. Если поток управления идет только в первичную реплику, то поток данных идет во все реплики. Это сделано, чтобы избежать создания узких мест в сети, а взамен широко использовать пропускную способность каждой машины. Так же, чтобы избежать узких мест и перегруженных связей, используется схема передачи ближайшему соседу по сетевой топологии. Допустим, что клиент передает данные чанк-серверам S1 ,..., S4 . Клиент шлет ближайшему серверу данные, пусть S1 . Он далее пересылает ближайшему серверу, пусть будет S2 . Далее S2 пересылает их ближайшему S3 или S4 , и так далее.
Также задержка минимизируется за счет использования конвейеризации пакетов передаваемых данных по TCP . То есть, как только чанк-сервер получил какую-то часть данных, он немедленно начинает их пересылать. Без сетевых заторов, идеальное время рассылки данных объемом B байт на R реплик будет B/T + RL , где T сетевая пропускная способность, а L - задержка при пересылке одного байта между двумя машинами.
GFS поддерживает такую операцию, как атомарное добавление данных в файл. Обычно, при записи каких-то данных в файл, мы указываем эти данные и смещение. Если несколько клиентов производят подобную операцию, то эти операции нельзя переставлять местами (это может привести к некорректной работе). Если же мы просто хотим дописать данные в файл, то в этом случае мы указываем только сами данные. GFS добавит их атомарной операцией. Вообще говоря, если операция не выполнилась на одной из вторичных реплик, то GFS , вернет ошибку, а данные будут на разных репликах различны.
Еще одна интересная вещь в GFS - это резервные копии (еще можно сказать мгновенный снимок) файла или дерева директорий, которые создаются почти мгновенно, при этом, почти не прерывая выполняющиеся операции в системе. Это получается за счет технологии похожей на сopy on write . Пользователи используют эту возможность для создания веток данных или как промежуточную точку, для начала каких-то экспериментов.

Операции, выполняемые мастером

Мастер важное звено в системе. Он управляет репликациями чанков: принимает решения о размещении, создает новые чанки, а также координирует различную деятельность внутри системы для сохранения чанков полностью реплицированными, балансировки нагрузки на чанк-серверы и сборки неиспользуемых ресурсов.
В отличие от большинства файловых систем GFS не хранит состав файлов в директории. GFS логически представляет пространство имен, как таблицу, которая отображает каждый путь в метаданные. Такая таблица может эффективно храниться в памяти в виде бора (словаря этих самых путей). Каждая вершина в этом дереве (соответствует либо абсолютному пути к файлу, либо к директории) имеет соответствующие данные для блокировки чтения и записи(read write lock). Каждое операция мастера требует установления некоторых блокировок. В этом месте в системе используются блокировки чтения-записи. Обычно, если операция работает с /d1/d2/.../dn/leaf , то она устанавливает блокировки на чтение на /d1, /d1/d2, ..., d1/d2/.../dn и блокировку, либо на чтение, либо на запись на d1/d2/.../dn/leaf . При этом leaf может быть как директорией, так и файлом.
Покажем на примере, как механизм блокировок может предотвратить создание файла /home/user/foo во время резервного копирования /home/user в /save/user . Операция резервного копирования устанавливает блокировки на чтение на /home и /save , а так же блокировки на запись на /home/user и /save/user . Операция создания файла требует блокировки на чтение /home и /home/user , а также блокировки на запись на /home/user/foo . Таким образом, вторая операция не начнет выполняться, пока не закончит выполнение первая, так как есть конфликтующая блокировка на /home/user . При создании файла не требуется блокировка на запись родительской директории, достаточно блокировки на чтение, которая предотвращает удаление этой директории.
Кластеры GFS , являются сильно распределенными и многоуровневыми. Обычно, такой кластер имеет сотни чанк-серверов, расположенных на разных стойках. Эти сервера, вообще говоря, доступны для большого количества клиентов, расположенных в той же или другой стойке. Соединения между двумя машинами из различных стоек может проходить через один или несколько свитчей. Многоуровневое распределение представляет очень сложную задачу надежного, масштабируемого и доступного распространения данных.
Политика расположения реплик старается удовлетворить следующим свойствам: максимизация надежности и доступности данных и максимизация использование сетевой пропускной способности. Реплики должны быть расположены не только на разных дисках или разных машинах, но и более того на разных стойках. Это гарантирует, что чанк доступен, даже если целая стойка повреждена или отключена от сети. При таком расположении чтение занимает время приблизительно равное пропускной способности сети, зато поток данных при записи должен пройти через различные стойки.
Когда мастер создает чанк, он выбирает где разместить реплику. Он исходит из нескольких факторов:

Желательно поместить новую реплику на чанк-сервер с наименьшей средней загруженностью дисков. Это будет со временем выравнивать загруженность дисков на различных серверах.
Желательно ограничить число новых создаваемых чанков на каждом чанк-сервере. Несмотря на то, что создание чанка сама по себе быстрая операция, она подразумевает последующую запись данных в этот чанк, что уже является тяжелой операцией, и это может привести к разбалансировке объема трафика данных на разные части системы.
Как сказано выше, желательно распределить чанки среди разных стоек.

Как только число реплик падает ниже устанавливаемой пользователем величины, мастер снова реплицирует чанк. Это может случиться по нескольким причинам: чанк-сервер стал недоступным, один из дисков вышел из строя или увеличена величина, задающая число реплик. Каждому чанку, который должен реплицироваться, устанавливается приоритет, который тоже зависит от нескольких факторов. Во-первых, приоритет выше у того чанка, который имеет наименьшее число реплик. Во-вторых, чтобы увеличить надежность выполнения приложений, увеличивается приоритет у чанков, которые блокируют прогресс в работе клиента
Мастер выбирает чанк с наибольшим приоритетом и копирует его, отдавая инструкцию одному из чанк-серверов, скопировать его с доступной реплики. Новая реплика располагается, исходя из тех же причин, что и при создании.
Во время работы мастер постоянно балансирует реплики. В зависимости от распределения реплик в системе, он перемещает реплику для выравнивания загруженности дисков и балансировки нагрузки. Также мастер должен решать, какую из реплик стоит удалить. Как правило, удаляется реплика, которая находится на чанк-сервере с наименьшим свободным местом на жестких дисках.
Еще одна важная функция, лежащая на мастере - это сборка мусора. При удалении файла, GFS не требует мгновенного возвращения освободившегося дискового пространства. Он делает это во время регулярной сборки мусора, которая происходит как на уровне чанков, так и на уровне файлов. Авторы считают, что такой подход делает систему более простой и надежной.
При удалении файла приложением, мастер запоминает в логах этот факт, как и многие другие. Тем не менее, вместо требования немедленного восстановления освободившихся ресурсов, файл просто переименовывается, причем в имя файла добавляется время удаления, и он становится невидимым пользователю. А мастер, во время регулярного сканирования пространства имен файловой системы, реально удаляет все такие скрытые файлы, которые были удалены пользователем более трех дней назад (этот интервал настраивается). А до этого момента файл продолжает находиться в системе, как скрытый, и он может быть прочитан или переименован обратно для восстановления. Когда скрытый файл удаляется мастером, то информация о нем удаляется также из метаданных, а все чанки этого файла отцепляются от него.
Мастер помимо регулярного сканирования пространства имен файлов делает аналогичное сканирование пространства имен чанков. Мастер определяет чанки, которые отсоединены от файла, удаляет их из метаданных и во время регулярных связей с чанк-серверами передает им сигнал о возможности удаления всех реплик, содержащих заданный чанк. У такого подхода к сборке мусора много преимуществ, при одном недостатке: если место в системе заканчивается, а отложенное удаление увеличивает неиспользуемое место, до момента самого физического удаления. Зато есть возможность восстановления удаленных данных, возможность гибкой балансировки нагрузки при удалении и возможность восстановления системы, в случае каких-то сбоев.

Устойчивость к сбоям и диагностика ошибок

Авторы системы считают одной из наиболее сложных проблем частые сбои работы компонентов системы. Количество и качество компонентов делают эти сбои не просто исключением, а скорее нормой. Сбой компонента может быть вызван недоступностью этого компонента или, что хуже, наличием испорченных данных. GFS поддерживает систему в рабочем виде при помощи двух простых стратегий: быстрое восстановление и репликации.
Быстрое восстановление - это, фактически, перезагрузка машины. При этом время запуска очень маленькое, что приводит к маленькой заминке, а затем работа продолжается штатно. Про репликации чанков уже говорилось выше. Мастер реплицирует чанк, если одна из реплик стала недоступной, либо повредились данные, содержащие реплику чанка. Поврежденные чанки определяется при помощи вычисления контрольных сумм.
Еще один вид репликаций в системе, про который мало было сказано - это репликация мастера. Реплицируется лог операций и контрольные точки (checkpoints). Каждое изменение файлов в системе происходит только после записи лога операций на диски мастером, и диски машин, на которые лог реплицируется. В случае небольших неполадок мастер может перезагрузиться. В случае проблем с жестким диском или другой жизненно важной инфраструктурой мастера, GFS стартует нового мастера, на одной из машин, куда реплицировались данные мастера. Клиенты обращаются к мастеру по DNS, который может быть переназначен новой машине. Новый мастер является тенью старого, а не точной копией. Поэтому у него есть доступ к файлам только для чтения. То есть он не становится полноценным мастером, а лишь поддерживает лог операций и другие структуры мастера.
Важной частью системы является возможность поддерживать целостность данных. Обычный GFS кластер состоит из сотен машин, на которых расположены тысячи жестких дисков, и эти диски при работе с завидным постоянством выходят из строя, что приводит к порче данных. Система может восстановить данные с помощью репликаций, но для этого необходимо понять испортились ли данные. Простое сравнение различных реплик на разных чанк-серверах является неэффективным. Более того, может происходить несогласованность данных между различными репликами, ведущая к различию данных. Поэтому каждый чанк-сервер должен самостоятельно определять целостность данных.
Каждый чанк разбивается на блоки длиной 64 Кбайт . Каждому такому блоку соответствует 32 -битная контрольная сумма. Как и другие метаданные эти суммы хранятся в памяти, регулярно сохраняются в лог, отдельно от данных пользователя.
Перед тем как считать данные чанк-сервер проверяет контрольные суммы блоков чанка, которые пересекаются с затребованными данными пользователем или другим чанк-сервером. То есть чанк-сервер не распространяет испорченные данные. В случае несовпадения контрольных сумм, чанк-сервер возвращает ошибку машине, подавшей запрос, и рапортует о ней мастеру. Пользователь может считать данные из другой реплики, а мастер создает еще одну копию из данных другой реплики. После этого мастер дает инструкцию этому чанк-серверу об удалении этой испорченной реплики.
При добавлении новых данных, верификация контрольных сумм не происходит, а для блоков записывается новые контрольные суммы. В случае если диск испорчен, то это определится при попытке чтения этих данных. При записи чанк-сервер сравнивает только первый и последний блоки, пересекающиеся с границами, в которые происходит запись, поскольку часть данных на этих блоках не перезаписывается и необходимо проверить их целостность.