Azure HDInsight を、もっと使う(1)

シェアする

以前の記事で、HDInsightを使えるところまで来ました。

目次
(1)HDInsight環境準備
(2)データの準備、SQL実行方法の確認
(3)データのロードと、抽出・集計の実行

今後は、もっと効率的に使う方法を模索することにします。(まだ、書きかけです・・・)

ORC形式で、圧縮等のパラメーターチューニング

CREATE TABLE mytable (

) STORED AS orc tblproperties (“orc.compress”=”SNAPPY”);

参考情報
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

⇒とりあえず、動くことは確認しました。

RegexSerDe

読み込み時に、データを認識する部分(機能)をSerDeといい、Hiveを拡張できるようです。

区切り文字のイレギュラーや、文字列が「””(ダブルクォート)」でくくられている場合、正規表現を使い認識させるメジャーなSerDeがあるようなので、使い心地を一度試してみたいですね

参考情報(Apacheログの読み込み)

ODBCドライバー

Hive接続用のODBCドライバーが用意されているようです。

tableau等から接続して分析できるか、今後試してみたいですね

(文字コード変換や、タイムアウト等はどうなるのか気になります)

参考情報
https://azure.microsoft.com/ja-jp/documentation/articles/hdinsight-connect-excel-hive-odbc-driver/

⇒ Excel 2010 (Windows 7)環境で、文字コードの問題なども特におきず、成功。

コマンド(PowerShell)での、Hadoopクラスター管理

都度々々、Azureポータルでクラスターを生成するのに疲れてきました。
ここはやはり、コマンド一発で行きたいですね
参考情報