В рубрике интересных каталогов открытых данных большое открытие, Oracle Open Data 1, каталог огромных наборов данных доступный на базе облака компании Oracle.
Их особенность - это данные большого объёма, минимальные в десятках гигабайт, максимальные в сотнях терабайт. Акцент на данных о земле, данных расшифровки генома и так далее. Всё это под открытыми лицензиями и в удобном доступе на их инфраструктуре. По идеологии очень напоминает открытые датасеты на платформах Azure и Amazon AWS, а также данные которые доступны в Google Cloud. Но лидер по масштабам пока именно Amazon. И почти все делают акцент на наиболее востребованных научных данных.
Почему крупные BigTech корпорации создают такие каталоги? Потому что для их сервисов облачной инфраструктуры - это мощная "замануха" позволяющая убить сразу нескольких зайцев:
- социальный эффект от доступности для всех интересных наборов данных
- возможность с самого начала подсаживать на свою инфраструктуру студентов и исследователей
- маркетинг на общественно благих целях
Конечно без попыток vendor lock-in не обходится, но это, в целом, хорошие инициативы и за ними интересно наблюдать.
Кстати, если кто-то из российских облачных провайдеров задумается о том чтобы создать похожий каталог из очень больших датасетов связанных с Россией и нужных российской аудиторией - обращайтесь, мы как раз собрали масштабный каталог в DataCrafter'е (data.apicrafter.ru) и это ещё не все данные, а только те что успели обработать;)
Ссылки:
1 https://opendata.oraclecloud.com
#opendata #datacatalogs #bigtech #oracle #data #datasets