2018年8月5日日曜日

BigQueryを使う(4) : クラウドストレージからの挿入

BigQueryのFile Uploadで容量が多くてアップロードできないデータをGoogle Cloud Storageからアップロードする方法です。
http://mizunolab.sist.ac.jp/2018/07/bigquery1.html
で書きましたが、仕様が変わったので再度書きます。

(1) Google Cloud Storageでのデータ共有
最初、データが非公開になっているので、右側のボタンから「権限の編集」をクリック
「項目を追加」し、ユーザ、allUsers、読み取りを追加する
そうすれば公開になります。
これからアドレスをコピーして利用します。


2018年8月1日水曜日

BigQueryを使う(3) BigQueryへ格納

前回JavaからBigQueryにアクセスし、テーブル情報を集計しました。当初その結果はMySQLに格納しましたが、集計情報もデータ数が多くMySQLから取り出すことが大変だったので、BigQueryにStreaming Insertを使って格納しました。

(1) テーブル作成関数
データ格納用のテーブルを作成しました。
public void createTable() { //BigQueryにテーブルを作成
Field row[] = new Field[column+1];
for(int i = 0; i < column; i++) {
row[i] = Field.of("sum"+i, LegacySQLTypeName.INTEGER);
}
row[column] = Field.of("index", LegacySQLTypeName.INTEGER);
Schema schema = Schema.of(row);
StandardTableDefinition tableDefinition = StandardTableDefinition.of(schema);
bigQuery.create(TableInfo.of(tableId, tableDefinition));
}
view raw createTable hosted with ❤ by GitHub


(2) データ格納関数
public void insertTotals(TableResult response, int index){
System.out.println("Totals : Insert開始");
for (FieldValueList row : response.iterateAll()) {
Map<String, Object> rowvalue = new HashMap<>();
for(int i = 0; i < column; i++) {
rowvalue.put("sum"+i, row.get("sum"+i).getValue());
}
rowvalue.put("index", index);
InsertAllRequest insertRequest = InsertAllRequest.newBuilder(tableId).addRow(rowvalue).build();
InsertAllResponse insertResponse = bigQuery.insertAll(insertRequest);
}
}
view raw insertTotals hosted with ❤ by GitHub


全体
https://github.com/smzn/BigQuery
シンプル
https://github.com/smzn/BigQuery_Insert

Streamingはデータが入るまである程度時間がかかるので、データが格納されていなくても間違いではないので注意。