以前の記事で、HDInsightを使えるところまで来ました。
目次
(1)HDInsight環境準備
(2)データの準備、SQL実行方法の確認
(3)データのロードと、抽出・集計の実行
今後は、もっと効率的に使う方法を模索することにします。(まだ、書きかけです・・・)
ORC形式で、圧縮等のパラメーターチューニング
CREATE TABLE mytable (
…
) STORED AS orc tblproperties (“orc.compress”=”SNAPPY”);
参考情報
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
⇒とりあえず、動くことは確認しました。
RegexSerDe
読み込み時に、データを認識する部分(機能)をSerDeといい、Hiveを拡張できるようです。
区切り文字のイレギュラーや、文字列が「””(ダブルクォート)」でくくられている場合、正規表現を使い認識させるメジャーなSerDeがあるようなので、使い心地を一度試してみたいですね
ODBCドライバー
Hive接続用のODBCドライバーが用意されているようです。
tableau等から接続して分析できるか、今後試してみたいですね
(文字コード変換や、タイムアウト等はどうなるのか気になります)
参考情報
https://azure.microsoft.com/ja-jp/documentation/articles/hdinsight-connect-excel-hive-odbc-driver/
⇒ Excel 2010 (Windows 7)環境で、文字コードの問題なども特におきず、成功。