СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Практическая работа №22. Дата сеты в DataSphere

Категория: Информатика

Нажмите, чтобы узнать подробности

Дисциплина:  БД.08 «Информатика»

Прикладной модуль 1. Основы аналитики и визуализации данных.

Цель работы: Получить практические навыки пользования Дата – сетами

Просмотр содержимого документа
«Практическая работа №22. Дата сеты в DataSphere»

Группа Т(О), ТГ(О), С(О)–24-02, 2025 год


Занятие по рабочей программе №30

Дисциплина: БД.08 «Информатика»

Прикладной модуль 1. Основы аналитики и визуализации данных.

Тема: ПР №22. Датасеты в DataSphere.

  1. Цель занятия:
                  1. Дидактическая:

  • сформулировать представление студентов и получить практические навыки работы Дата - сетами;

  • выяснить назначение применения ПО во время выполнения работы;

  • систематизировать и объяснить сущность работы с потоками данных;

  • определение основ аналитики и визуализации данных в принятии решений;

  • углубить и закрепить знания по дисциплине «Информатика».

Воспитательная:

  • развивать коммуникативные способности;

  • развивать аналитические способности;

  • развивать творческий подход к процессу обучения.

  • воспитывать самостоятельность, дисциплинированность;

  • стимулировать студентов к изучению дисциплины;

  • побуждать к формированию активной жизненной позиции;

  • прививать уважение и любовь к будущей профессии.

Вид занятия: практическая работа.

Тип занятия: обобщение и систематизация знаний.

Форма проведения занятия: репродуктивная и эвристическая беседа.

Междисциплинарные связи:

Обеспечивающие Математика, Охрана труда, Безопасность жизнедеятельности.

Обеспечиваемые

Информационные технологии в профессиональной деятельности, и др.

Методическое обеспечение: опорный конспект.

Литература:

  1. Филимонова, Е. В. Информатика и информационные технологии в профессиональной деятельности: учебник / Е. В. Филимонова. – Москва: Юстиция, 2019. – 213 с. – (Среднее профессиональное образование). - ISBN 978-5-4365-2703-1.

  2. Зимин, В. П.  Информатика. Лабораторный практикум в 2 ч. Часть 1 : учебное пособие для среднего профессионального образования / В. П. Зимин. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2023. — 126 с. — (Профессиональное образование). — ISBN 978-5-534-11851-3. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/514893


ХОД ЗАНЯТИЯ

  1. Ознакомление с темой, целью и планом занятия.

Тема: ПР №22. Датасеты в DataSphere.

Цель работы: Получить практические навыки пользования Дата – сетами.

ПЛАН

  1. Датасеты в DataSphere.

  2. Диски.

3. Работа с датасетами. 4. Активировать датасет.

5. Поделиться датасетом.

6. Удалить датасет.

7. Информация о датасете как ресурсе.


  1. Изложение и изучение нового материала, практическая работа.


ЛИТЕРАТУРА: [5], стр.


1. Датасеты в DataSphere

Датасет (англ. dataset) - это обработанный и структурированный массив данных. В нём у каждого объекта есть конкретные свойства: признаки, связи между объектами или определённое место в выборке данных. Его используют, чтобы строить на основе данных гипотезы, делать выводы или обучать нейросети.

Примитивно датасет можно представить в виде группировки по признакам.

Датасет в DataSphere — это механизм хранения информации, который предоставляет быстрый доступ к большим объемам данных. Датасеты позволяют хранить до 4 ТБ, при этом доступ к данным будет быстрее, чем к основному хранилищу проекта.

Совет. Чем больше выделенный для датасета диск, тем выше скорость чтения данных.


2. Диски

Диск — это виртуальный аналог физических накопителей, таких как SSD и HDD.

Диски предназначены для хранения данных и подключаются к виртуальным машинам для работы с ними. При отключении диска данные сохраняются.

Каждый диск находится в одной из зон доступности и реплицируется внутри нее (кроме нереплицируемых дисков), что обеспечивает сохранность данных. В другие зоны диски не реплицируются.

После создания вы можете изменить имя и описание диска и увеличить его размер.

2.1. Диск как ресурс Yandex Cloud.

Диск создается внутри каталога и наследует права доступа к нему.

Диск занимает место в хранилище, которое дополнительно оплачивается. Подробнее читайте в разделе Правила тарификации для Compute Cloud. Размер диска указывается при создании нового диска. Именно этот объем подлежит оплате.

Если диск создан из снимка или из образа, в информации о диске содержится идентификатор ресурса-источника. Помимо этого от ресурса-источника наследуются идентификаторы лицензий (product_ids), которые используются при расчете стоимости использования диска.

2.2. Типы дисков.

ВМ в Yandex Cloud могут использовать следующие типы дисков:

  • Сетевой SSD-диск (network-ssd) — быстрый сетевой диск, сетевое блочное хранилище на SSD-накопителе.

  • Сетевой HDD-диск (network-hdd) — стандартный сетевой диск, сетевое блочное хранилище на HDD-накопителе.

  • Нереплицируемый SSD-диск (network-ssd-nonreplicated) — сетевой диск с повышенной производительностью без избыточности.

  • Высокопроизводительный SSD-диск (network-ssd-io-m3) — обладает теми же скоростными характеристиками, что и network-ssd-nonreplicated и одновременно обеспечивает избыточность.

  • Локальные диски на выделенных хостах.

Сетевые SSD, высокопроизводительные SSD-диски и сетевые HDD-диски обеспечивают достаточную избыточность для надежного хранения данных и позволяют непрерывно выполнять операции чтения и записи даже при одновременном выходе из строя нескольких физических дисков. Нереплицируемые диски не гарантируют сохранность данных.

Если физический диск, на котором располагается сетевой диск, вышел из строя, ВМ продолжит работу и быстро получит доступ к данным в полном объеме.

2.3. Нереплицируемые диски и высокопроизводительные SSD-диски.

Нереплицируемые диски и высокопроизводительные SSD-диски превосходят по производительности сетевые SSD-диски, но при этом:

  • Размер дисков должен быть кратен 93 ГБ.

Во всех расчетах 1 ГБ = 230 байт.

  • Рекомендуется создавать нереплицируемые и высокопроизводительные диски в зонах доступности ru-central1-a и ru-central1-b.

Внимание. Нереплицируемый диск не рекомендуется делать загрузочным. Если он выйдет из строя, виртуальная машина может стать недоступной.

Создание и наполнение датасета происходит во время инициализации. После инициализации датасет нельзя изменить, он будет доступен только для чтения. Если вы хотите добавить файлы в датасет, создайте его заново.

3. Работа с датасетами

Для работы с большими объемами данных в DataSphere используйте датасеты. Основные операции с датасетами выполняются в коде ячеек с помощью служебных команд #pragma dataset.

3.1. Создать и инициализировать датасет.

Создать и инициализировать датасет можно из ячейки с кодом на Bash или Python, содержащей команду #pragma dataset init. При инициализации укажите уникальное в пределах проекта имя датасета и размер диска, на котором будет размещен датасет. Требования к имени датасета:

  • длина — от 3 до 63 символов;

  • может содержать строчные буквы латинского алфавита, цифры и дефисы;

  • первый символ — буква, последний — не дефис.

Примечание. Во время инициализации датасета будет выделен весь запрошенный объем дискового хранилища, однако часть этого объема будет занята файловой системой. Указывайте размер датасета в ГБ, округляя до целого в большую сторону.

Во время инициализации датасет однократно подключается к проекту с доступом для чтения и записи. Если код в ячейке инициализации датасета выполнен успешно, датасет сохраняется и повторно подключается с доступом только для чтения. Если во время инициализации произойдет ошибка, датасет будет отключен и удален.

После инициализации данные датасета изменить невозможно. Если данные нужно актуализировать, удалите датасет и создайте новый.

3.2. Наполнить датасет файлами из хранилища проекта или подключенного объектного хранилища.

Этот способ также подойдет для создания датасета с данными из бакета Yandex Object Storage или другого объектного хранилища, подключенного к хранилищу проекта с помощью коннектора S3.

Bash

Чтобы создать датасет , инициализируйте его и скопируйте файлы каталога :

#!:bash

#pragma dataset init имя_датасета --size 1Gb

set -e

cp -r имя_исходного_каталога /home/jupyter/mnt/datasets/имя_датасета

Наполнить датасет из файла по ссылке

Чтобы создать датасет  из архива CIFAR-10, выполните код в ячейке:


Bash

#!:bash

#pragma dataset init имя_датасета --size 1Gb

set -e

cd /home/jupyter/mnt/datasets/имя_датасета

wget https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz

tar -xvf cifar-10-python.tar.gz

rm -rf cifar-10-python.tar.gz


Python 3

#pragma dataset init имя_датасета --size 1Gb

from urllib.request import urlopen

import tarfile

from os import remove

file_name = 'cifar-10-python.tar.gz'

file_url = 'https://www.cs.toronto.edu/~kriz/' + file_name

dest_dir = '/home/jupyter/mnt/datasets/имя_датасета/'

dest_file = dest_dir + file_name

with urlopen(file_url) as i:

with open(dest_file, 'w+b') as o:

o.write(i.read())

tar = tarfile.open(dest_file)

tar.extractall(dest_dir)

tar.close()

remove(dest_file)

# This prevents serialization of temporary variables

del i, o, tar



Наполнить датасет объектами файловых хранилищ

Object Storage

Если вы подключаетесь к бакету Object Storage с помощью коннектора S3, создайте датасет из объектов как из локальных файлов проекта.

#pragma dataset init имя_датасета --size 1Gb

import os

import boto3

S3_CREDS = {

"aws_access_key_id": os.environ[''],

"aws_secret_access_key": os.environ['']

}

bucket_name = ""

source_path = ''

target_path = '/home/jupyter/mnt/datasets/имя_датасета/'

s3r = boto3.resource(service_name='s3', endpoint_url='https://storage.yandexcloud.net', **S3_CREDS)

bucket = s3r.Bucket(bucket_name)

for obj in bucket.objects.filter(Prefix=source_path):

if not os.path.relpath(obj.key, source_path).startswith('../'):

os.makedirs(os.path.join(target_path, os.path.dirname(obj.key)), exist_ok=True)

if obj.key[-1] != '/':

bucket.download_file(obj.key, os.path.join(target_path, obj.key))

Где:

  • aws_access_key_id — идентификатор статического ключа доступа, сгенерированный для сервисного аккаунта проекта.

  • aws_secret_access_key — секретный ключ, сгенерированный для того же сервисного аккаунта.


Яндекс Диск

#pragma dataset init --size 8Gb

import requests

from urllib.parse import urlencode

from io import BytesIO

from zipfile import ZipFile

base_url = 'https://cloud-api.yandex.net/v1/disk/public/resources/download?'

public_key = ''

final_url = base_url + urlencode(dict(public_key=public_key))

response = requests.get(final_url)

download_url = response.json()['href']

response = requests.get(download_url)

dist_path = '/home/jupyter/mnt/datasets/имя_датасета/'

zipfile = ZipFile(BytesIO(response.content))

zipfile.extractall(path=dist_path)

Где  — ссылка для доступа к каталогу на Яндекс Диске, содержимое которого нужно загрузить в DataSphere.


Google Drive

Установите пакет gdown:

%pip install gdown

Инициализируйте датасет в ячейке с кодом:

#pragma dataset init имя_датасета --size 1Gb

import gdown

gdrive_folder_id = 'идентификатор_папки_Google_Drive'

dst_path = '/home/jupyter/mnt/datasets/имя_датасета/'

gdown.download_folder(id=gdrive_folder_id, output=dst_path, use_cookies=False)


Где  — идентификатор папки Google Drive, который содержится в адресе после https://drive.google.com/drive/folders/. Например, в URL https://drive.google.com/drive/folders/exampleId идентификатор папки — exampleId.


4. Активировать датасет

Сразу после инициализации датасет становится активным в проекте и доступен по адресу /home/jupyter/mnt/datasets/. Одновременно в проекте может быть активировано до 3 датасетов. Во время работы вы можете активировать датасеты, когда они необходимы, и отключать их, если данные больше не нужны.

Чтобы активировать датасет:

  1. Выберите нужный проект в своем сообществе или на главной странице DataSphere во вкладке Недавние проекты.

  2. В блоке Ресурсы проекта нажмите Датасет.

  3. В строке с нужным датасетом нажмите значок  и выберите Активировать.

Посмотреть список датасетов, доступных в проекте

На странице проекта в блоке Ресурсы проекта выберите  Датасет. Затем перейдите на вкладку Доступные.


5. Поделиться датасетом
  1. Выберите нужный проект в своем сообществе или на главной странице DataSphere во вкладке Недавние проекты.

  2. В блоке Ресурсы проекта нажмите  Датасет.

  3. Выберите нужный датасет в списке.

  4. Перейдите на вкладку Доступ.

  5. Включите опцию видимости напротив названия сообщества, с которым нужно поделиться датасетом.

Чтобы датасет стал доступен для работы в другом проекте, администратор проекта должен добавить его на вкладке Доступные.


6. Удалить датасет

Вы можете удалить датасет, только если он:

  • не активирован в собственном проекте;

  • не используется в других проектах;

  • недоступен в сообществе.

Чтобы удалить датасет:

  1. На странице проекта в блоке Ресурсы проекта нажмите  Датасет.

  2. В строке с нужным датасетом нажмите значок  и выберите Удалить.

Датасеты не включены в основное хранилище проекта и тарифицируются отдельно.

Как и другими ресурсами, датасетами можно делиться в сообществе, чтобы использовать данные в нескольких проектах.

При активации в проекте диск с датасетом монтируется к хранилищу проекта. Файлы активированного датасета можно читать как локальные файлы хранилища проекта по пути /home/jupyter/mnt/datasets/.

Одновременно в проекте может быть активировано до 3 датасетов. Вы можете активировать и деактивировать датасеты проекта прямо во время работы без перезагрузки проекта. Все ограничения DataSphere см. в разделе Квоты и лимиты в DataSphere.


7. Информация о датасете как ресурсе

О каждом датасете хранится следующая информация:

  • имя;

  • статус подключения к проекту;

  • имя пользователя, создавшего датасет;

  • дата создания датасета в формате в UTC, например 18 июля 2022 г., 14:23.

Чтобы посмотреть подробную информацию о датасете, нажмите на его название в списке датасетов проекта. На вкладке Обзор конкретного датасета можно увидеть:

  • зону доступности, в которой хранится датасет;

  • размер;

  • код инициализации.


ДОМАШНЕЕ ЗАДАНИЕ

  1. Изучить теоретический материал по данной теме.

  2. Выполнить Практическое задание.

  3. Результаты представить в виде крин-шотов.

Внимание! Выполнить домашнее задание в тетради. Отчёт отослать на адрес электронной почты преподавателя.


Перечень рекомендуемых учебных изданий, Интернет-ресурсов, дополнительной литературы.

Основные источники:

  1. Информатика. 10 класс : учебник для общеобразоват. организаций: базовый и углубленный уровни / [А.Г.Гейн , А.Б Ливчак, А.И. Сенокосов, Н.А. Юнерман]. – 4-е изд. – М. : Просвещение, 2018. – 272 с. : ил. – ISBN 978-5-09-058130-1

  2. Информатика. 11 класс : учебник для общеобразоват. организаций: базовый и углубленный уровни / [А.Г.Гейн, А.И. Сенокосов]. – 6-е изд. – М. : Просвещение, 2019. – 336 с. : ил. – ISBN 978-5-09-072326-8.

Электронные источники:

  1. Зимин, В. П.  Информатика. Лабораторный практикум в 2 ч. Часть 1 : учебное пособие для среднего профессионального образования / В. П. Зимин. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2023. — 126 с. — (Профессиональное образование). — ISBN 978-5-534-11851-3. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/514893

  2. Зимин, В. П.  Информатика. Лабораторный практикум в 2 ч. Часть 2 : учебное пособие для среднего профессионального образования / В. П. Зимин. — 2-е изд. — Москва : Издательство Юрайт, 2023. — 153 с. — (Профессиональное образование). — ISBN 978-5-534-11854-4. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/514918

  3. Мойзес, О. Е. Информатика. Углубленный курс : учебное пособие для среднего профессионального образования / О. Е. Мойзес, Е. А. Кузьменко. — Москва: Издательство Юрайт, 2020. — 164 с. — (Профессиональное образование). — ISBN 978-5-534-07980-7. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/455803 .

  4. Советов, Б. Я. Информационные технологии : учебник для среднего профессионального образования / Б. Я. Советов, В. В. Цехановский. — 7-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2020. — 327 с. — (Профессиональное образование). — ISBN 978-5-534-06399-8. — Текст: электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/450686 .

  5. Новожилов, О. П. Информатика в 2 ч. Часть 1 : учебник для среднего профессионального образования / О. П. Новожилов. — 3-е изд., перераб. и доп. — Москва: Издательство Юрайт, 2020. — 320 с. — (Профессиональное образование). — ISBN 978-5-534-06372-1. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/448995 .

  6. Новожилов, О. П. Информатика в 2 ч. Часть 2 : учебник для среднего профессионального образования / О. П. Новожилов. — 3-е изд., перераб. и доп. — Москва: Издательство Юрайт, 2020. — 302 с. — (Профессиональное образование). — ISBN 978-5-534-06374-5. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/448996

  7. Гаврилов, М. В. Информатика и информационные технологии : учебник для среднего профессионального образования / М. В. Гаврилов, В. А. Климов. — 4-е изд., перераб. и доп. — Москва: Издательство Юрайт, 2020. — 383 с. — (Профессиональное образование). — ISBN 978-5-534-03051-8. — Текст: электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/449286

Дополнительные источники:

        1. Филимонова, Е. В. Информатика и информационные технологии в профессиональной деятельности: учебник / Е. В. Филимонова. – Москва: Юстиция, 2019. – 213 с. – (Среднее профессиональное образование). - ISBN 978-5-4365-2703-1.

        2. Цветкова М.С., Информатика. Практикум для профессий и специальностей естественно-научного и гуманитарного профилей: : учеб. пособие для студентов учреждений сред. проф. образования / М.С. Цветкова, И.Ю. Хлобыстова. - 5-е изд., стер. - М. : Издательский центр "Академия", 2019. - 240 с. ISBN 978-5-4468-7901-4

Электронные источники:

  1. Гаврилов, М. В.  Информатика и информационные технологии : учебник для среднего профессионального образования / М. В. Гаврилов, В. А. Климов. — 4-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2021. — 383 с. — (Профессиональное образование). — ISBN 978-5-534-03051-8. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/469424

  2. Акопов, А. С.  Компьютерное моделирование : учебник и практикум для среднего профессионального образования / А. С. Акопов. — Москва : Издательство Юрайт, 2023. — 389 с. — (Профессиональное образование). — ISBN 978-5-534-10712-8. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/517999

  3. Демин, А. Ю.  Информатика. Лабораторный практикум : учебное пособие для среднего профессионального образования / А. Ю. Демин, В. А. Дорофеев. — Москва : Издательство Юрайт, 2023. — 133 с. — (Профессиональное образование). — ISBN 978-5-534-07984-5. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/516857



Преподаватель: Владимир Александрович Волков E-mail: [email protected]