Azure HDInsight を、もっと使う（１）

以前の記事で、HDInsightを使えるところまで来ました。

今後は、もっと効率的に使う方法を模索することにします。（まだ、書きかけです・・・）

CREATE TABLE mytable (
…
) STORED AS orc tblproperties (“orc.compress”=”SNAPPY”);

⇒とりあえず、動くことは確認しました。

読み込み時に、データを認識する部分（機能）をSerDeといい、Hiveを拡張できるようです。

区切り文字のイレギュラーや、文字列が「””（ダブルクォート）」でくくられている場合、正規表現を使い認識させるメジャーなSerDeがあるようなので、使い心地を一度試してみたいですね

参考情報（Apacheログの読み込み）

Hive接続用のODBCドライバーが用意されているようです。

tableau等から接続して分析できるか、今後試してみたいですね

（文字コード変換や、タイムアウト等はどうなるのか気になります）

⇒ Excel 2010 （Windows 7）環境で、文字コードの問題なども特におきず、成功。

都度々々、Azureポータルでクラスターを生成するのに疲れてきました。

ここはやはり、コマンド一発で行きたいですね

参考情報