BigQuery ML 機械学習で 2020年桜の開花日を予測する!Part 3

Part 1, Part 2 と BigQuery ML での桜の開花日予測の手法と実際の過去データ分での精度向上の手順を紹介した。いよいよこの最終 Part 3 では今年 2020年の開花日を予測してみよう。今年の開花日はいつかな?

BigQuery ML 機械学習で 2020年桜の開花日を予測する!Part 2

2020年 桜開花予測

将来の桜の開花日予測手法

400℃・600℃の法則だけで事足りるならば桜の開花日予測はつまるところ、その年の気温の予想に過ぎない。それに加えて秋冬の寒さ傾向の把握や直前の冷え込み等のデータの取り方・与え方なども重要で、それ故さくらの開花日予想が面白い所以だろう。

さて、僕は具体的に次のような手法を用いて 2020年今年の・これからの桜の開花日を予測することにした。

  • ここまで・10〜1月までの秋冬の気温をこれまでと比較し秋冬の傾向を把握
     ↓
  • 暖冬傾向と判断
    (実際今年は暖冬と言われている。スキー場では雪不足が深刻だ)
  • これまでのクラスタリングで暖冬に分類された k1 と k4 の同じ日付の平均気温を今後 2〜4月の予測気温とする
  • この結果から開花直前 3月前半は冷え込まず暖かめとし、クラスタラベルは k4 とする

 

ロジスティック回帰モデルでの 2020年の桜開花日予想

この考え方で出来たデータはこんな感じ ↓

どうなるか様子を見てみよう

すると、

3/20 と出た!

 

この結果はかなり意外だった。数字上もそうだし報道等でもこの冬は暖冬と散々言われている。ということは多くの累積気温が必要になる = 開花日は遅めになる ハズだ。

一つ考えられるのは、並の暖冬を上回る暖冬なので 3/20 までに必要な累積気温が積み重なるということかもしれない。

今回は桜の開花日を予測するロジック / モデルを作成したのでその際の累積最高気温は予測しないが、こういうのも予測させてみると面白いかもしれない。

話を戻して逆に BigQuery ML が開花日とした 3/20 の累積気温として置いているのは、

  • 累積平均気温 401.9℃
  • 累積最高気温 604.7℃

偶然なのか、どちらもそれぞれちょうど 400℃・600℃を突破した日だった。
もっと累積気温が必要ならば 2・3日さらに必要な気がするのだが、、、

線形回帰モデルでの 2020年の桜の開花日予想

線形回帰ではどうなるだろうか?

出ました! 同じく 20日です。

 

という訳で結論、2020年の桜の開花日の予想は

 

3/20金 春分の日

 

です。

 

なんてこった、、100日後に死ぬワニが死ぬ予定の日じゃないか、、、

 

なお、今後の実際の気温でデータは更新し、都度予測もし直す。変更が生じたらまた更新することにしよう。

 

あと、もう一つ

K 平均法でクラスタリングした毎年の傾向はどのように分布しているのだろうか?
Tableau でプロットしてみた。

ここ最近は諸般の事情により BI ツールは Google Data Studio を使うことが殆どだったが実は今では Data Studio もかなり能力が上がり、諸々 Tableau と遜色ないレベルにまでなってきた。

が、散布図に関してはまだまだ Tableau に分がある。

久しぶりに Tableau 触ったけど、色々忘れてるな〜、、、
Tableau Public は以前はCSV と統計データしか使えないぐらいの勢いだったけど、この間に Google Spreadsheet が使えるようになってた! これは神!

さて、散布図は次のように作成した。

  • x軸 開花直前平均気温
  • y軸 秋冬平均気温
  • 色   開花時の累積平均気温 青:低温 → 赤:高温
  • 形   クラスタ ● k1 ■ k2 ◆ k3 ★ k4


インタラクティブな Viz はこちら

やはりざっくり秋冬しっかり寒かった年は累積気温少なめ、逆に暖冬の年は多めの累積気温が必要なのが見て取れる。

そして、K 平均法でのクラスタリング、こうなってたのね。

概ね 4つの象限できれいに分かれているが、一つ目を引くのが 2012年だ。
冬はまぁ寒く、直前に冷え込んでいる。が、この年は多くの累積気温が必要となり、432.6℃だった。冬そこまで暖かくなかったのだが、、、何故だろう。
この辺を解き明かすことにより、更に精度の高い予測が可能になるかもしれない。

まとめ

最終的に特にロジスティック回帰モデルでの予測ではこれまでの実開花日に対して同日での予測または ±1日以内の精度に収めることが出来た。結果的に K 平均法でクラスタリングを行いそのラベルを貼ったことが予測の精度を高める助けになった。

それにしても 2020年の開花予想日は意外な結果だった。近年稀にみる異常な暖冬とのことなので予測を難しくしているのは間違いないだろう。どうなるか様子をみてみよう。

 

各種 SNS アカウントでコメントできます