Вернуться

Чем озеро данных отличается от базы данных?

Озера и базы данных представляют собой хранилища информации. Основная разница между ними — стадия, на которой происходит структурирование этой информации. В случае баз данных оно происходит на входе: сохраняемая там информация уже четко структурирована, у нее есть иерархия. Для добавления новых данных необходимо четко указать их место в этой структуре. Это облегчает задачу аналитика, но также сужает его возможности.

В такое хранилище без всякой иерархии поступают данные в разных форматах из разных источников — подобно тому, как реки впадают в озеро. Структурирование этих данных для анализа происходит на выходе из озера. Разнообразие и объемы данных, которые хранятся в озерах, открывают большие возможности для специалистов по Data Science.