Группа Т(О), ТГ(О), С(О)–24-02, 2025 год
Занятие по рабочей программе №30
Дисциплина: БД.08 «Информатика»
Прикладной модуль 1. Основы аналитики и визуализации данных.
Тема: ПР №22. Датасеты в DataSphere.
Цель занятия: Дидактическая:
сформулировать представление студентов и получить практические навыки работы Дата - сетами;
выяснить назначение применения ПО во время выполнения работы;
систематизировать и объяснить сущность работы с потоками данных;
определение основ аналитики и визуализации данных в принятии решений;
углубить и закрепить знания по дисциплине «Информатика».
Воспитательная:
развивать коммуникативные способности;
развивать аналитические способности;
развивать творческий подход к процессу обучения.
воспитывать самостоятельность, дисциплинированность;
стимулировать студентов к изучению дисциплины;
побуждать к формированию активной жизненной позиции;
прививать уважение и любовь к будущей профессии.
Вид занятия: практическая работа.
Тип занятия: обобщение и систематизация знаний.
Форма проведения занятия: репродуктивная и эвристическая беседа.
Междисциплинарные связи:
Обеспечивающие Математика, Охрана труда, Безопасность жизнедеятельности.
Обеспечиваемые
Информационные технологии в профессиональной деятельности, и др.
Методическое обеспечение: опорный конспект.
Литература:
Филимонова, Е. В. Информатика и информационные технологии в профессиональной деятельности: учебник / Е. В. Филимонова. – Москва: Юстиция, 2019. – 213 с. – (Среднее профессиональное образование). - ISBN 978-5-4365-2703-1.
Зимин, В. П. Информатика. Лабораторный практикум в 2 ч. Часть 1 : учебное пособие для среднего профессионального образования / В. П. Зимин. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2023. — 126 с. — (Профессиональное образование). — ISBN 978-5-534-11851-3. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/514893
ХОД ЗАНЯТИЯ
Ознакомление с темой, целью и планом занятия.
Тема: ПР №22. Датасеты в DataSphere.
Цель работы: Получить практические навыки пользования Дата – сетами.
ПЛАН
Датасеты в DataSphere.
Диски.
3. Работа с датасетами. 4. Активировать датасет.
5. Поделиться датасетом.
6. Удалить датасет.
7. Информация о датасете как ресурсе.
Изложение и изучение нового материала, практическая работа.
ЛИТЕРАТУРА: [5], стр.
1. Датасеты в DataSphere
Датасет (англ. dataset) - это обработанный и структурированный массив данных. В нём у каждого объекта есть конкретные свойства: признаки, связи между объектами или определённое место в выборке данных. Его используют, чтобы строить на основе данных гипотезы, делать выводы или обучать нейросети.
Примитивно датасет можно представить в виде группировки по признакам.
Датасет в DataSphere — это механизм хранения информации, который предоставляет быстрый доступ к большим объемам данных. Датасеты позволяют хранить до 4 ТБ, при этом доступ к данным будет быстрее, чем к основному хранилищу проекта.
Совет. Чем больше выделенный для датасета диск, тем выше скорость чтения данных.
2. Диски
Диск — это виртуальный аналог физических накопителей, таких как SSD и HDD.
Диски предназначены для хранения данных и подключаются к виртуальным машинам для работы с ними. При отключении диска данные сохраняются.
Каждый диск находится в одной из зон доступности и реплицируется внутри нее (кроме нереплицируемых дисков), что обеспечивает сохранность данных. В другие зоны диски не реплицируются.
После создания вы можете изменить имя и описание диска и увеличить его размер.
2.1. Диск как ресурс Yandex Cloud.
Диск создается внутри каталога и наследует права доступа к нему.
Диск занимает место в хранилище, которое дополнительно оплачивается. Подробнее читайте в разделе Правила тарификации для Compute Cloud. Размер диска указывается при создании нового диска. Именно этот объем подлежит оплате.
Если диск создан из снимка или из образа, в информации о диске содержится идентификатор ресурса-источника. Помимо этого от ресурса-источника наследуются идентификаторы лицензий (product_ids), которые используются при расчете стоимости использования диска.
2.2. Типы дисков.
ВМ в Yandex Cloud могут использовать следующие типы дисков:
Сетевой SSD-диск (network-ssd) — быстрый сетевой диск, сетевое блочное хранилище на SSD-накопителе.
Сетевой HDD-диск (network-hdd) — стандартный сетевой диск, сетевое блочное хранилище на HDD-накопителе.
Нереплицируемый SSD-диск (network-ssd-nonreplicated) — сетевой диск с повышенной производительностью без избыточности.
Высокопроизводительный SSD-диск (network-ssd-io-m3) — обладает теми же скоростными характеристиками, что и network-ssd-nonreplicated и одновременно обеспечивает избыточность.
Локальные диски на выделенных хостах.
Сетевые SSD, высокопроизводительные SSD-диски и сетевые HDD-диски обеспечивают достаточную избыточность для надежного хранения данных и позволяют непрерывно выполнять операции чтения и записи даже при одновременном выходе из строя нескольких физических дисков. Нереплицируемые диски не гарантируют сохранность данных.
Если физический диск, на котором располагается сетевой диск, вышел из строя, ВМ продолжит работу и быстро получит доступ к данным в полном объеме.
2.3. Нереплицируемые диски и высокопроизводительные SSD-диски.
Нереплицируемые диски и высокопроизводительные SSD-диски превосходят по производительности сетевые SSD-диски, но при этом:
Во всех расчетах 1 ГБ = 230 байт.
Рекомендуется создавать нереплицируемые и высокопроизводительные диски в зонах доступности ru-central1-a и ru-central1-b.
Внимание. Нереплицируемый диск не рекомендуется делать загрузочным. Если он выйдет из строя, виртуальная машина может стать недоступной.
Создание и наполнение датасета происходит во время инициализации. После инициализации датасет нельзя изменить, он будет доступен только для чтения. Если вы хотите добавить файлы в датасет, создайте его заново.
3. Работа с датасетами
Для работы с большими объемами данных в DataSphere используйте датасеты. Основные операции с датасетами выполняются в коде ячеек с помощью служебных команд #pragma dataset.
3.1. Создать и инициализировать датасет.
Создать и инициализировать датасет можно из ячейки с кодом на Bash или Python, содержащей команду #pragma dataset init. При инициализации укажите уникальное в пределах проекта имя датасета и размер диска, на котором будет размещен датасет. Требования к имени датасета:
длина — от 3 до 63 символов;
может содержать строчные буквы латинского алфавита, цифры и дефисы;
первый символ — буква, последний — не дефис.
Примечание. Во время инициализации датасета будет выделен весь запрошенный объем дискового хранилища, однако часть этого объема будет занята файловой системой. Указывайте размер датасета в ГБ, округляя до целого в большую сторону.
Во время инициализации датасет однократно подключается к проекту с доступом для чтения и записи. Если код в ячейке инициализации датасета выполнен успешно, датасет сохраняется и повторно подключается с доступом только для чтения. Если во время инициализации произойдет ошибка, датасет будет отключен и удален.
После инициализации данные датасета изменить невозможно. Если данные нужно актуализировать, удалите датасет и создайте новый.
3.2. Наполнить датасет файлами из хранилища проекта или подключенного объектного хранилища.
Этот способ также подойдет для создания датасета с данными из бакета Yandex Object Storage или другого объектного хранилища, подключенного к хранилищу проекта с помощью коннектора S3.
Bash
Чтобы создать датасет , инициализируйте его и скопируйте файлы каталога :
#!:bash
#pragma dataset init имя_датасета --size 1Gb
set -e
cp -r имя_исходного_каталога /home/jupyter/mnt/datasets/имя_датасета
Наполнить датасет из файла по ссылке
Чтобы создать датасет из архива CIFAR-10, выполните код в ячейке:
Bash
#!:bash
#pragma dataset init имя_датасета --size 1Gb
set -e
cd /home/jupyter/mnt/datasets/имя_датасета
wget https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
tar -xvf cifar-10-python.tar.gz
rm -rf cifar-10-python.tar.gz
Python 3
#pragma dataset init имя_датасета --size 1Gb
from urllib.request import urlopen
import tarfile
from os import remove
file_name = 'cifar-10-python.tar.gz'
file_url = 'https://www.cs.toronto.edu/~kriz/' + file_name
dest_dir = '/home/jupyter/mnt/datasets/имя_датасета/'
dest_file = dest_dir + file_name
with urlopen(file_url) as i:
with open(dest_file, 'w+b') as o:
o.write(i.read())
tar = tarfile.open(dest_file)
tar.extractall(dest_dir)
tar.close()
remove(dest_file)
# This prevents serialization of temporary variables
del i, o, tar
Наполнить датасет объектами файловых хранилищ
Object Storage
Если вы подключаетесь к бакету Object Storage с помощью коннектора S3, создайте датасет из объектов как из локальных файлов проекта.
#pragma dataset init имя_датасета --size 1Gb
import os
import boto3
S3_CREDS = {
"aws_access_key_id": os.environ[''],
"aws_secret_access_key": os.environ['']
}
bucket_name = ""
source_path = ''
target_path = '/home/jupyter/mnt/datasets/имя_датасета/'
s3r = boto3.resource(service_name='s3', endpoint_url='https://storage.yandexcloud.net', **S3_CREDS)
bucket = s3r.Bucket(bucket_name)
for obj in bucket.objects.filter(Prefix=source_path):
if not os.path.relpath(obj.key, source_path).startswith('../'):
os.makedirs(os.path.join(target_path, os.path.dirname(obj.key)), exist_ok=True)
if obj.key[-1] != '/':
bucket.download_file(obj.key, os.path.join(target_path, obj.key))
Где:
aws_access_key_id — идентификатор статического ключа доступа, сгенерированный для сервисного аккаунта проекта.
aws_secret_access_key — секретный ключ, сгенерированный для того же сервисного аккаунта.
Яндекс Диск
#pragma dataset init --size 8Gb
import requests
from urllib.parse import urlencode
from io import BytesIO
from zipfile import ZipFile
base_url = 'https://cloud-api.yandex.net/v1/disk/public/resources/download?'
public_key = ''
final_url = base_url + urlencode(dict(public_key=public_key))
response = requests.get(final_url)
download_url = response.json()['href']
response = requests.get(download_url)
dist_path = '/home/jupyter/mnt/datasets/имя_датасета/'
zipfile = ZipFile(BytesIO(response.content))
zipfile.extractall(path=dist_path)
Где — ссылка для доступа к каталогу на Яндекс Диске, содержимое которого нужно загрузить в DataSphere.
Google Drive
Установите пакет gdown:
%pip install gdown
Инициализируйте датасет в ячейке с кодом:
#pragma dataset init имя_датасета --size 1Gb
import gdown
gdrive_folder_id = 'идентификатор_папки_Google_Drive'
dst_path = '/home/jupyter/mnt/datasets/имя_датасета/'
gdown.download_folder(id=gdrive_folder_id, output=dst_path, use_cookies=False)
Где — идентификатор папки Google Drive, который содержится в адресе после https://drive.google.com/drive/folders/. Например, в URL https://drive.google.com/drive/folders/exampleId идентификатор папки — exampleId.
4. Активировать датасет
Сразу после инициализации датасет становится активным в проекте и доступен по адресу /home/jupyter/mnt/datasets/. Одновременно в проекте может быть активировано до 3 датасетов. Во время работы вы можете активировать датасеты, когда они необходимы, и отключать их, если данные больше не нужны.
Чтобы активировать датасет:
Выберите нужный проект в своем сообществе или на главной странице DataSphere во вкладке Недавние проекты.
В блоке Ресурсы проекта нажмите Датасет.
В строке с нужным датасетом нажмите значок и выберите Активировать.
Посмотреть список датасетов, доступных в проекте
На странице проекта в блоке Ресурсы проекта выберите Датасет. Затем перейдите на вкладку Доступные.
5. Поделиться датасетом
Выберите нужный проект в своем сообществе или на главной странице DataSphere во вкладке Недавние проекты.
В блоке Ресурсы проекта нажмите Датасет.
Выберите нужный датасет в списке.
Перейдите на вкладку Доступ.
Включите опцию видимости напротив названия сообщества, с которым нужно поделиться датасетом.
Чтобы датасет стал доступен для работы в другом проекте, администратор проекта должен добавить его на вкладке Доступные.
6. Удалить датасет
Вы можете удалить датасет, только если он:
не активирован в собственном проекте;
не используется в других проектах;
недоступен в сообществе.
Чтобы удалить датасет:
На странице проекта в блоке Ресурсы проекта нажмите Датасет.
В строке с нужным датасетом нажмите значок и выберите Удалить.
Датасеты не включены в основное хранилище проекта и тарифицируются отдельно.
Как и другими ресурсами, датасетами можно делиться в сообществе, чтобы использовать данные в нескольких проектах.
При активации в проекте диск с датасетом монтируется к хранилищу проекта. Файлы активированного датасета можно читать как локальные файлы хранилища проекта по пути /home/jupyter/mnt/datasets/.
Одновременно в проекте может быть активировано до 3 датасетов. Вы можете активировать и деактивировать датасеты проекта прямо во время работы без перезагрузки проекта. Все ограничения DataSphere см. в разделе Квоты и лимиты в DataSphere.
7. Информация о датасете как ресурсе
О каждом датасете хранится следующая информация:
имя;
статус подключения к проекту;
имя пользователя, создавшего датасет;
дата создания датасета в формате в UTC, например 18 июля 2022 г., 14:23.
Чтобы посмотреть подробную информацию о датасете, нажмите на его название в списке датасетов проекта. На вкладке Обзор конкретного датасета можно увидеть:
зону доступности, в которой хранится датасет;
размер;
код инициализации.
ДОМАШНЕЕ ЗАДАНИЕ
Изучить теоретический материал по данной теме.
Выполнить Практическое задание.
Результаты представить в виде крин-шотов.
Внимание! Выполнить домашнее задание в тетради. Отчёт отослать на адрес электронной почты преподавателя.
Перечень рекомендуемых учебных изданий, Интернет-ресурсов, дополнительной литературы.
Основные источники:
Информатика. 10 класс : учебник для общеобразоват. организаций: базовый и углубленный уровни / [А.Г.Гейн , А.Б Ливчак, А.И. Сенокосов, Н.А. Юнерман]. – 4-е изд. – М. : Просвещение, 2018. – 272 с. : ил. – ISBN 978-5-09-058130-1
Информатика. 11 класс : учебник для общеобразоват. организаций: базовый и углубленный уровни / [А.Г.Гейн, А.И. Сенокосов]. – 6-е изд. – М. : Просвещение, 2019. – 336 с. : ил. – ISBN 978-5-09-072326-8.
Электронные источники:
Зимин, В. П. Информатика. Лабораторный практикум в 2 ч. Часть 1 : учебное пособие для среднего профессионального образования / В. П. Зимин. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2023. — 126 с. — (Профессиональное образование). — ISBN 978-5-534-11851-3. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/514893
Зимин, В. П. Информатика. Лабораторный практикум в 2 ч. Часть 2 : учебное пособие для среднего профессионального образования / В. П. Зимин. — 2-е изд. — Москва : Издательство Юрайт, 2023. — 153 с. — (Профессиональное образование). — ISBN 978-5-534-11854-4. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/514918
Мойзес, О. Е. Информатика. Углубленный курс : учебное пособие для среднего профессионального образования / О. Е. Мойзес, Е. А. Кузьменко. — Москва: Издательство Юрайт, 2020. — 164 с. — (Профессиональное образование). — ISBN 978-5-534-07980-7. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/455803 .
Советов, Б. Я. Информационные технологии : учебник для среднего профессионального образования / Б. Я. Советов, В. В. Цехановский. — 7-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2020. — 327 с. — (Профессиональное образование). — ISBN 978-5-534-06399-8. — Текст: электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/450686 .
Новожилов, О. П. Информатика в 2 ч. Часть 1 : учебник для среднего профессионального образования / О. П. Новожилов. — 3-е изд., перераб. и доп. — Москва: Издательство Юрайт, 2020. — 320 с. — (Профессиональное образование). — ISBN 978-5-534-06372-1. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/448995 .
Новожилов, О. П. Информатика в 2 ч. Часть 2 : учебник для среднего профессионального образования / О. П. Новожилов. — 3-е изд., перераб. и доп. — Москва: Издательство Юрайт, 2020. — 302 с. — (Профессиональное образование). — ISBN 978-5-534-06374-5. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/448996
Гаврилов, М. В. Информатика и информационные технологии : учебник для среднего профессионального образования / М. В. Гаврилов, В. А. Климов. — 4-е изд., перераб. и доп. — Москва: Издательство Юрайт, 2020. — 383 с. — (Профессиональное образование). — ISBN 978-5-534-03051-8. — Текст: электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/449286
Дополнительные источники:
Филимонова, Е. В. Информатика и информационные технологии в профессиональной деятельности: учебник / Е. В. Филимонова. – Москва: Юстиция, 2019. – 213 с. – (Среднее профессиональное образование). - ISBN 978-5-4365-2703-1.
Цветкова М.С., Информатика. Практикум для профессий и специальностей естественно-научного и гуманитарного профилей: : учеб. пособие для студентов учреждений сред. проф. образования / М.С. Цветкова, И.Ю. Хлобыстова. - 5-е изд., стер. - М. : Издательский центр "Академия", 2019. - 240 с. ISBN 978-5-4468-7901-4
Электронные источники:
Гаврилов, М. В. Информатика и информационные технологии : учебник для среднего профессионального образования / М. В. Гаврилов, В. А. Климов. — 4-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2021. — 383 с. — (Профессиональное образование). — ISBN 978-5-534-03051-8. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/469424
Акопов, А. С. Компьютерное моделирование : учебник и практикум для среднего профессионального образования / А. С. Акопов. — Москва : Издательство Юрайт, 2023. — 389 с. — (Профессиональное образование). — ISBN 978-5-534-10712-8. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/517999
Демин, А. Ю. Информатика. Лабораторный практикум : учебное пособие для среднего профессионального образования / А. Ю. Демин, В. А. Дорофеев. — Москва : Издательство Юрайт, 2023. — 133 с. — (Профессиональное образование). — ISBN 978-5-534-07984-5. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/516857
Преподаватель: Владимир Александрович Волков E-mail: [email protected]