Озера и базы данных представляют собой хранилища информации. Основная разница между ними — стадия, на которой происходит структурирование этой информации. В случае баз данных оно происходит на входе: сохраняемая там информация уже четко структурирована, у нее есть иерархия. Для добавления новых данных необходимо четко указать их место в этой структуре. Это облегчает задачу аналитика, но также сужает его возможности.
В такое хранилище без всякой иерархии поступают данные в разных форматах из разных источников — подобно тому, как реки впадают в озеро. Структурирование этих данных для анализа происходит на выходе из озера. Разнообразие и объемы данных, которые хранятся в озерах, открывают большие возможности для специалистов по Data Science.