Хранилище данных с Hadoop ETL

Question

Хранилище данных с Hadoop ETL

1

Я немного смущен. В настоящее время я должен интегрировать свой хранилище данных и платформу Hadoop. До сих пор я занимался традиционным ET. Теперь мой вопрос:

1. How Hadoop will involve into this ETL process ? 
2. I need to load my data into SQL server 
3. How can I achieve ETL in Hadoop ?

И мои HDFS хранят плоские файлы (.csv)

Может кто-нибудь мне помочь? Любые идеи приветствуются

Backtrack 19 март 2014, в 07:48

Источник

Теги:

java

hadoop

data-warehouse

2 ответа

Ещё вопросы

ramblingpolak · Answer 1 · 2016-07-31T01-20-00.000Z

Sqoop - очень популярный инструмент для переноса DW из баз данных SQL в Hadoop. У этого есть свои риски, потому что он запускает задание MapReduce против вашей базы данных, которое может генерировать большую нагрузку, если вы не будете осторожны.

Hadoop на самом деле просто зонтичный термин, обычно ссылающийся на HDFS (файловая система), а иногда и MapReduce, который является исходной средой обработки для Hadoop.

Скорее всего, вы будете использовать такие инструменты, как Hive (SQL-подобный механизм запросов для анализа файлов в HDFS) для создания отчетов.

Если вы заинтересованы в более дружественном инструменте ingest с веб-графическим интерфейсом, ознакомьтесь с сборщиком данных StreamSets Data Collector

Navaneeth Babu Chellathurai · Answer 2 · 2014-03-19T10-21-00.000Z

В Hadoop вы можете хранить ваши данные DW в HDFS в виде файлов. Если вы хотите перенести свой DW на Hadoop. Вы можете перенести данные из существующего DW в Apache Hive, который является инструментом DW, основанным на hadoop. U может использовать sqoop для переноса ваших данных (установить соединение между сервером UW и сервером Hadoop для работы с sqoop)

Не могли бы вы дать более подробную информацию о второй точке?

U мог достичь ETL в Hadoop с помощью инструмента Pig. Для большей цели ETL вы можете написать собственный Pig UDF с помощью Java.

Можете ли вы дать мне несколько примеров
Можете ли вы дать мне знать, вам нужен пример на что?
Мое требование состоит в том, чтобы загрузить мои плоские файлы в мой DW, который является MS SQL? Как я могу достичь этого, мне не нужно выполнять Преобразование и все
@ Backtrack: Если ваши плоские файлы уже извлечены и вам не нужны никакие преобразования, зачем вам нужно привлекать какие-либо другие системы для их загрузки в MS SQL Server?
@Olaf, мой плоский файл - это преобразованный файл, то есть ET завершен, мне нужно сделать L, то есть загрузить его в SQL
Вы можете использовать Sqoop для загрузки плоского файла из HDFS в SQL.
Вы можете использовать Sqoop или просто экспортировать файлы CSV из HDFS в локальную файловую систему с помощью командной строки, а затем импортировать их в базу данных, используя аналог Microsoft * SQL * Loader.