import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import datetime
import scipy.stats as stats
from scipy.optimize import curve_fit


yst = 1960; yen = 2021
dlist = []
for yy in range(yst,yen+1,1): # range(start,stop,step)は "start"から"stop"（ただし,stopは含まない）まで増分"step"の等差数列を作る
    cyr = str(yy) # 文字列化
    file = "../../DB_2020/data/Kyoto/Kyoto_" + cyr  +".csv" #<---【注】"data/AMeDAS/Kyoto/Kyoto_"にパスを変更のこと
    
    df = pd.read_csv(file,encoding = "shift-jis",header=2,index_col=0,parse_dates=[0])
    # "encoding=":文字コードを指定、"header=2":2行目をヘッダー行（変数情報）に指定、"index_col=0": 0列目をインデックス行（時刻）に指定
    # ""parse_dates =[0]": 「日時」の型として読み込む（これにより、年・月・曜日といった情報を簡単に取り出せる） 
    
    df = df.iloc[2:,:] # ヘッダーの余計な部分（空白行など）を除いて上書き
    # これで一年分のデータのかたまりができた

    dlist.append(df) # listに要素(df)を追加していくことで

# pandas.concatで、データのかたまり（41年分）を結合する
dfm = pd.concat(dlist,axis=0) # axis=0 (時間軸方向）に結合
    
temp = dfm['平均気温(℃)']


# 一括表示
print("describeの結果")
print(temp.describe())

describeの結果
count    22640.000000
mean        15.819859
std          8.642596
min         -3.400000
25%          7.800000
50%         16.100000
75%         23.300000
max         32.800000
Name: 平均気温(℃), dtype: float64


# 各統計量を個別に計算
# 平均
mean = temp.mean()
print(mean)

15.819858657243767


#pandas のメソッド
sp = dfm['平均現地気圧(hPa)']
corr_tp = temp.corr(sp)

#numpy　のメソッド（欠損値があるので、ちょっと丁寧に...）
mask1 = np.logical_not(temp.isnull()) # .isunull()は、値が無いところを"True"で返す。np.logical_not()は真偽を反転->値があるところを"True"に
mask2 = np.logical_not(sp.isnull())
mask = mask1&mask2 
corr_tp_np = np.corrcoef(temp[mask],sp[mask]) #両方値が存在する要素を計算に用いる。

fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(temp,sp)
plt.show()

print('R(pandas) ',corr_tp)
print('R(np)', corr_tp_np)

R(pandas)  -0.5869915395334572
R(np) [[ 1.         -0.58699154]
 [-0.58699154  1.        ]]


## (1) [pandas] resampleメソッド
t_annual = temp.resample('A-DEC').mean() #年平均気温データを作成
yr = np.arange(yst,yen+1) #年


# 関数を定義する
def f_trend(x, a, b):
    return a*x + b

popt,pcov =  curve_fit(f_trend,yr,t_annual)
# popt[0]:a(回帰直線の傾き)、popt[1]:b(y切片) 

#fitting = popt[0]*dt + popt[1]
fitting = f_trend(yr,popt[0],popt[1])

# トレンド(10年あたりで表す)
trend10 = popt[0]*10
print('Trend = ',trend10,'K/decade')

# 描画
fig = plt.figure(figsize=(10,4))
ax = fig.add_subplot(111)
ax.plot(yr,t_annual,label='Annual-mean T')
ax.plot(yr,fitting,label='Regression')
ax.legend()
plt.show()

Trend =  0.27987580902440024 K/decade


# 時間情報を元に条件を決めるのであるから、まずは時間の情報を抜き出す。
date = temp.index #ndex列が時間情報なので
#print(date)

# "月"の配列を作る
key = date.month
#print(key)

# これをキーとしてグループ化
group = temp.groupby(key)

# 各グループで平均を計算
temp_monthly = group.mean()

#以下、描画
fig = plt.figure(figsize=(10,4))
ax = fig.add_subplot(111)

temp_monthly.plot(ax=ax,label="Monthly mean")

ax.set_ylabel('Temperature ($^\circ$C)')
ax.set_xlabel('Month')
ax.legend()

plt.show()


#真偽値配列の作成
mask_mon = (temp.index.month == 1)

#１月データを抜き出して平均
temp_jan = temp[mask_mon].mean()

print(temp_jan)

4.433506763787722


mon_ave = np.zeros(12) #大きさ12（12か月分）の配列を用意しておく
for mm in range(1,13):
    mon_ave[mm-1] = temp[temp.index.month == mm].mean()
    # mm-1 としたのは配列の要素が0から始まるため
    
x = np.arange(1,13) #x軸（1-12の月を表す整数配列）

## ここから描画
fig = plt.figure(figsize=(10,4))
ax = fig.add_subplot(111)

ax.plot(x,mon_ave,label='Monthly Average')
ax.set_ylabel('Temperature ($^\circ$C)')
ax.set_xlabel('Month')

ax.legend()
plt.show()


a = [1,2,3,4,5]
v = [0.33,0.33,0.33]
print(np.convolve(a,v,mode="valid"))

[1.98 2.97 3.96]


# (1) [pandas] rolling を使った方法 -----
wd = 31
t_mv1 = temp.rolling(wd,center=True).mean()
x1 = t_mv1.index # t_mv1のインデックスをそのまま使う
#print(x1)
# ------------------------------

# (2) [Nump] convolveを使った方法 -----
temp_v = temp.values # 値を取り出す
#print(type(temp_v))

# 重み関数の定義 
w = np.ones(wd)/wd 
t_mv2 = np.convolve(temp_v,w,mode='valid')

# x軸（時間軸）をトリミング
wd2 = int((wd-1)/2)
x2 = temp.index[wd2:-wd2]
print(x2)
#----------------------------

# 図示
fig = plt.figure(figsize=(10,4))
ax = fig.add_subplot(111)

#
ax.plot(x1[:90], temp[:90],label='(0) Original')
ax.plot(x1[:90], t_mv1[:90],label='(1) 31-day moving average (rolling)')
#ax.plot(x2[:90], t_mv2[:90],label='(2) Convolution')

ax.legend()
plt.show()

DatetimeIndex(['1960-01-16', '1960-01-17', '1960-01-18', '1960-01-19',
               '1960-01-20', '1960-01-21', '1960-01-22', '1960-01-23',
               '1960-01-24', '1960-01-25',
               ...
               '2021-12-07', '2021-12-08', '2021-12-09', '2021-12-10',
               '2021-12-11', '2021-12-12', '2021-12-13', '2021-12-14',
               '2021-12-15', '2021-12-16'],
              dtype='datetime64[ns]', name='年月日', length=22616, freq=None)


### High-pass filter

# オリジナル時系列から低周波成分を差し引く
t_high = temp - t_mv1

#図示
fig = plt.figure(figsize=(10,4))
ax = fig.add_subplot(111)
ax.plot(t_high[:90],label='High-pass filtered')
ax.legend()
plt.show()

pandasメソッド	説明
要素の数	count
sum	合計
mean	平均
median	中央値
quantile	分位値（0から1の範囲）
min, max	最小値，最大値
idxmin, idxmax	最小値、最大値が得られた要素のラベル（注１）
var(ddof=)	分散（ddof = 0: 標本分散, 1: 不偏分散,...; デフォルトは1）
std(ddof=)	標準偏差（ddof = 0, 1,..)
cov(other)	`other`との共分散

Numpy関数	説明
np.median(array)	中央値
np.quantile(array,q)	データのパーセント点を0から1の範囲(q)で求める

文字	説明
A-JAN, A-FEB,...	一年に１度、指定した月の月末ごと
M	月末ごと
D	日ごと
H	毎時
T (or min)	毎分
S	毎秒

属性	意味
year	年
month	月
day	日
hour	時間
dayofweek	曜日（0:月曜日...6:日曜日）
dayofyear	一年の何日目か

2. 時系列データの解析（統計解析・時系列解析）¶

2.1 基本的な統計量の算出¶

2.2 ダウンサンプリングとトレンド推定¶

2.3 コンポジット解析¶

2.4 【参考】移動平均（時間フィルターの基礎）¶

【準備】複数のファイルを結合して長期時系列データを作る（1.1と同じ）¶

2.1 基本的な統計量の算出・相関係数¶

◆ 統計量を一括して表示する: describe()　メソッド¶

◆ 個別の統計量を計算する¶

【練習課題】2020年に猛暑日となった日数は？¶

◆ 相関係数: [pandas] .corr メソッド, [Numpy] np.corrcoef(x,y)¶

相関係数の定義¶

【練習課題】相関係数の定義に沿った方法で計算し、上記の結果と一致することを確かめよ。¶

【課題 2-1】データの期間内において、最高（最低）気温の最大（小）値を記録したのは何年何月何日か？（＋２点）¶

【課題 2-2】日降水量の頻度分布を描いてみよ。併せて、「10年に一度の発生頻度の雨」とはどの程度か求めてみよ（＋２点）¶

【課題 2-3】 6-8月の日最高気温について、異なる２つの期間（例：1982-2001と2002-2021）のヒストグラムを重ね合わせることで、極端気象の発現度に違いがあるか調べよ（＋２点）¶

2.2 ダウンサンプリングとトレンド推定¶

◆ データの間隔を変える: resample メソッド¶

◆ 曲線/直線でフィッティング：[関数] scipy.optimize.curvefit¶

【練習課題】年平均のデータを作り時系列で図示せよ。またこのデータに一次関数をフィッティングすることで、トレンドを推定せよ。¶

◆ 信頼区間の推定（詳細はこちらを参照）¶

【課題 2-4】回帰係数を以下の定義に従って直接計算し、上記の結果に一致することを確かめよ。和の計算にはメソッドを用いて良い（＋２点）¶

【課題 2-5】真夏日/猛暑日の年間日数に長期変化はあるだろうか？図を描いて検討せよ（＋２点）¶

2.3 コンポジット解析　〜月平均値を作ってみる〜¶

【練習課題】月平均気温の年サイクルを求めよ。¶

A. Groupby メソッドを使った方法　¶

B. 真偽値関数を使う方法¶

(Step 1)１月の平均気温を計算してみる¶

（Step 2) Step1 を応用し、１−１２月の各月について月平均を算出して図示する¶

◆ 信頼区間の推定（詳細はこちらを参照）¶

【課題 2-6】上記の結果に年周期の三角関数をフィッティングすることで、季節変化の振幅を求めよ（＋2点）¶

【課題 2-7】曜日による気温の変動はあるだろうか？曜日によるコンポジット図を作成し、結果について簡単に考察せよ [ 参考：藤部 (2014) ]　（＋2点）¶

【課題 2-9】１時間毎のデータを使って、気温と気圧の平均的な日変化を求め、結果について簡単に考察せよ。京都と富士山のデータを比較すると面白い（＋2点）¶

2.5【参考】移動平均・時間フィルター: [pandas] rolling メソッド, [np] convolve 関数¶

【練習課題】31日移動平均を計算し、元のデータ時系列と併せて図示せよ。¶

2. 時系列データの解析（統計解析・時系列解析）¶

2.1 基本的な統計量の算出¶

2.2 ダウンサンプリングとトレンド推定¶

2.3 コンポジット解析¶

2.4 【参考】移動平均（時間フィルターの基礎）¶

【準備】 複数のファイルを結合して長期時系列データを作る（1.1と同じ）¶

2.1 基本的な統計量の算出・相関係数¶

◆ 統計量を一括して表示する: describe() メソッド¶

◆ 個別の統計量を計算する¶

【練習課題】2020年に猛暑日となった日数は？¶

◆ 相関係数: [pandas] .corr メソッド, [Numpy] np.corrcoef(x,y)¶

相関係数の定義¶

【練習課題】相関係数の定義に沿った方法で計算し、上記の結果と一致することを確かめよ。¶

【課題 2-1】データの期間内において、最高（最低）気温の最大（小）値を記録したのは何年何月何日か？（＋２点）¶

【課題 2-2】日降水量の頻度分布を描いてみよ。併せて、「10年に一度の発生頻度の雨」とはどの程度か求めてみよ（＋２点）¶

【課題 2-3】 6-8月の日最高気温について、異なる２つの期間（例：1982-2001と2002-2021）のヒストグラムを重ね合わせることで、極端気象の発現度に違いがあるか調べよ（＋２点）¶

2.2 ダウンサンプリング と トレンド推定¶

◆ データの間隔を変える: resample メソッド¶

◆ 曲線/直線でフィッティング：[関数] scipy.optimize.curvefit¶

【練習課題】年平均のデータを作り時系列で図示せよ。またこのデータに一次関数をフィッティングすることで、トレンドを推定せよ。¶

◆ 信頼区間の推定（詳細はこちらを参照）¶

【課題 2-4】 回帰係数を以下の定義に従って直接計算し、上記の結果に一致することを確かめよ。和の計算にはメソッドを用いて良い（＋２点）¶

【課題 2-5】 真夏日/猛暑日の年間日数に長期変化はあるだろうか？図を描いて検討せよ（＋２点）¶

2.3 コンポジット解析 〜月平均値を作ってみる〜¶

【練習課題】 月平均気温の年サイクルを求めよ。¶

A. Groupby メソッドを使った方法 ¶

B. 真偽値関数を使う方法¶

(Step 1)１月の平均気温を計算してみる¶

（Step 2) Step1 を応用し、１−１２月の各月について月平均を算出して図示する¶

◆ 信頼区間の推定（詳細はこちらを参照）¶

【課題 2-6】上記の結果に年周期の三角関数をフィッティングすることで、季節変化の振幅を求めよ（＋2点）¶

【課題 2-7】曜日による気温の変動はあるだろうか？曜日によるコンポジット図を作成し、結果について簡単に考察せよ [ 参考：藤部 (2014) ] （＋2点）¶

【課題 2-9】１時間毎のデータを使って、気温と気圧の平均的な日変化を求め、結果について簡単に考察せよ。京都と富士山のデータを比較すると面白い（＋2点）¶

2.5【参考】移動平均・時間フィルター: [pandas] rolling メソッド, [np] convolve 関数¶

【練習課題】31日移動平均を計算し、元のデータ時系列と併せて図示せよ。¶

【準備】複数のファイルを結合して長期時系列データを作る（1.1と同じ）¶

◆ 統計量を一括して表示する: describe()　メソッド¶

2.2 ダウンサンプリングとトレンド推定¶

【課題 2-4】回帰係数を以下の定義に従って直接計算し、上記の結果に一致することを確かめよ。和の計算にはメソッドを用いて良い（＋２点）¶

【課題 2-5】真夏日/猛暑日の年間日数に長期変化はあるだろうか？図を描いて検討せよ（＋２点）¶

2.3 コンポジット解析　〜月平均値を作ってみる〜¶

【練習課題】月平均気温の年サイクルを求めよ。¶

A. Groupby メソッドを使った方法　¶

【課題 2-7】曜日による気温の変動はあるだろうか？曜日によるコンポジット図を作成し、結果について簡単に考察せよ [ 参考：藤部 (2014) ]　（＋2点）¶