import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import datetime
import scipy.stats as stats
from scipy.optimize import curve_fit


# 定数設定

def read_csv(START_YEAR,END_YEAR,STATION):
#START_YEAR = 1960
#END_YEAR = 2023
    DATA_DIR = "../../DB_2020/data/"+STATION+"/"+STATION+"_" #<---【注】"data/AMeDAS/Kyoto/Kyoto_"に変更のこと
    ENCODING = "shift-jis"

    # データを格納するリスト
    dataframes = []

    for year in range(START_YEAR, END_YEAR + 1):
        file_path = DATA_DIR + str(year) + ".csv"

        df = pd.read_csv(
            file_path,
            encoding=ENCODING,
            header=2,
            index_col=0,
            parse_dates=[0]
        )

        # 余計なヘッダー行を除去
        df = df.iloc[2:, :]

        dataframes.append(df)

    # すべての年のデータを結合（時間軸方向に）
    dfm = pd.concat(dataframes, axis=0)
    
    return dfm


dfm_kyoto = read_csv(1961,2023,"Kyoto")
dfm_maizuru = read_csv(1961,2023,"Maizuru")

temp_kyoto = dfm_kyoto['平均気温(℃)']
temp_maizuru = dfm_maizuru['平均気温(℃)']


# 一括表示
print("describeの結果")
print(temp_kyoto.describe())

describeの結果
count    23004.000000
mean        15.871835
std          8.657889
min         -3.400000
25%          7.900000
50%         16.200000
75%         23.400000
max         32.800000
Name: 平均気温(℃), dtype: float64


# 平均の計算
# (1) メソッドを使う
mean = temp_kyoto.mean()
print(mean)

15.871835332985546


# (2) pandasで読み込んだデータを ndarray（数値配列）に変換し、numpyの関数を使って計算
temp_kyoto_v = np.array(temp_kyoto.values)
np.nanmean(temp_kyoto_v)

15.871835332985569


# (3) ループを回して地道に計算
t_sum = 0
i = 0
for t in temp_kyoto_v:
    if(t < 999): #異常値処理
        t_sum += t
        i +=1
    else:
        print(t)

print(t_sum/i)

nan
nan
nan
nan
nan
nan
15.871835332985546


# [1] 相関係数の計算（pandas）
corr_t = temp_kyoto.corr(temp_maizuru)

# [2] 欠損値を考慮した NumPy による相関係数の計算
mask1 = ~temp_kyoto.isnull()  # 値が存在する箇所を True に： "np.logical_not()"と同義
mask2 = ~temp_maizuru.isnull()
mask = mask1 & mask2          # 両方に値がある箇所のみ True

# 欠損値を除いたデータで相関係数を計算
corr_t_np = np.corrcoef(temp_kyoto[mask], temp_maizuru[mask])

# 散布図の描画
fig, ax = plt.subplots()
ax.scatter(temp_kyoto, temp_maizuru)
plt.xlabel("Kyoto Temperature")
plt.ylabel("Maizuru Temperature")
plt.title("Temperature Correlation between Kyoto and Maizuru")
plt.grid(True)
plt.show()

# 結果出力
print('相関係数（pandas）:', corr_t)
print('相関係数（NumPy） :', corr_t_np[0, 1])

相関係数（pandas）: 0.991306351269801
相関係数（NumPy） : 0.991306351269801


# 年平均気温データの作成
t_annual = temp_kyoto.resample('A').mean()
yr = t_annual.index.year

# 線形回帰関数の定義
def f_trend(x, a, b):
    return a * x + b

# 回帰直線のフィッティング
popt, pcov = curve_fit(f_trend, yr, t_annual)
fitting = f_trend(yr, *popt)  # popt[0]: 傾き, popt[1]: 切片

# トレンドを10年あたりで表現
trend10 = popt[0] * 10
print(f'Trend = {trend10:.4f} K/decade')

# プロット描画
fig, ax = plt.subplots(figsize=(10, 4))
ax.plot(yr, t_annual, label='Annual-mean Temperature')
ax.plot(yr, fitting, label='Linear Trend', linestyle='--', color='red')
ax.set_xlabel('Year')
ax.set_ylabel('Temperature (°C)')
ax.set_title('Annual Mean Temperature and Linear Trend')
ax.legend()
ax.grid(True)
plt.tight_layout()
plt.show()

Trend = 0.2976 K/decade


# 月ごとの平均気温を算出
key = temp_kyoto.index.month
group = temp_kyoto.groupby(key)
temp_monthly = group.mean()

# プロット描画
fig, ax = plt.subplots(figsize=(10, 4))
temp_monthly.plot(ax=ax, label="Monthly Mean", marker='o')

# 軸ラベル・凡例など設定
ax.set_xlabel('Month')
ax.set_ylabel('Temperature (°C)')
ax.set_title('Monthly Mean Temperature')
ax.set_xticks(range(1, 13))
ax.legend()
ax.grid(True)


plt.show()


#真偽値配列の作成
mask_mon = (temp_kyoto.index.month == 1)

#１月データを抜き出して平均
temp_kyoto_jan = temp_kyoto[mask_mon].mean()

print(temp_kyoto_jan)

4.448796722990274


mon_ave = np.zeros(12) #大きさ12（12か月分）の配列を用意しておく
for mm in range(1,13):
    mon_ave[mm-1] = temp_kyoto[temp_kyoto.index.month == mm].mean()
    # mm-1 としたのは配列の要素が0から始まるため
    
x = np.arange(1,13) #x軸（1-12の月を表す整数配列）

## ここから描画

# プロット描画
fig, ax = plt.subplots(figsize=(10, 4))
ax.plot(x,mon_ave,label='Monthly Mean', marker='o')

# 軸ラベル・凡例など設定
ax.set_xlabel('Month')
ax.set_ylabel('Temperature (°C)')
ax.set_title('Monthly Mean Temperature')
ax.set_xticks(range(1, 13))
ax.legend()
ax.grid(True)

plt.show()


a = [1,2,3,4,5]
v = [0.33,0.33,0.33]
print(np.convolve(a,v,mode="valid"))

[1.98 2.97 3.96]


# 移動平均ウィンドウ（31日）
wd = 31

# (1) [pandas] rolling を使った方法
t_mv1 = temp_kyoto.rolling(wd, center=True).mean()
x1 = t_mv1.index
print(x1)

# (2) [NumPy] convolve を使った方法
temp_kyoto_v = temp_kyoto.values  # 値のみ抽出
w = np.ones(wd) / wd        # 重み関数（平均）
t_mv2 = np.convolve(temp_kyoto_v, w, mode='valid')  # 畳み込みで移動平均を計算

# x軸（時間）をトリミング
#wd2 = wd // 2
wd2 = int((wd-1)/2)
x2 = temp_kyoto.index[wd2:-wd2]  # mode='valid' に合わせる
#print(x2)  # 必要なら確認

# プロット描画（最初の90日間のみ表示）
fig, ax = plt.subplots(figsize=(10, 4))

ax.plot(x1[:90], temp_kyoto[:90], label='(0) Original')
ax.plot(x1[:90], t_mv1[:90], label='(1) 31-day MA (rolling)')
ax.plot(x2[:90], t_mv2[:90], label='(2) 31-day MA (convolve)', linestyle='--')

# 軸・凡例・装飾
ax.set_xlabel('Date')
ax.set_ylabel('Temperature (°C)')
ax.set_title('31-Day Moving Average: pandas vs NumPy')
ax.legend()
ax.grid(True)

plt.tight_layout()
plt.show()

DatetimeIndex(['1961-01-01', '1961-01-02', '1961-01-03', '1961-01-04',
               '1961-01-05', '1961-01-06', '1961-01-07', '1961-01-08',
               '1961-01-09', '1961-01-10',
               ...
               '2023-12-22', '2023-12-23', '2023-12-24', '2023-12-25',
               '2023-12-26', '2023-12-27', '2023-12-28', '2023-12-29',
               '2023-12-30', '2023-12-31'],
              dtype='datetime64[ns]', name='年月日', length=23010, freq=None)


### High-pass filter

# オリジナル時系列から低周波成分を差し引く
t_high = temp_kyoto - t_mv1

#図示
fig, ax = plt.subplots(figsize=(10, 4))
ax.plot(t_high[:90],label='High-pass filtered')
ax.legend()
plt.show()

pandasメソッド	説明
要素の数	count
sum	合計
mean	平均
median	中央値
quantile	分位値（0から1の範囲）
min, max	最小値，最大値
idxmin, idxmax	最小値、最大値が得られた要素のラベル（注１）
var(ddof=)	分散（ddof = 0: 標本分散, 1: 不偏分散,...; デフォルトは1）
std(ddof=)	標準偏差（ddof = 0, 1,..)
cov(other)	`other`との共分散

Numpy関数	説明
np.median(ndarray)	中央値
np.quantile(ndarray,q)	データのパーセント点を0から1の範囲(q)で求める

文字	説明
A	毎年
M	毎月
D	毎日
H	毎時
T (or min)	毎分
S	毎秒

2. 時系列データの解析（統計解析・時系列解析）¶

2.1 基本的な統計量の算出¶

2.2 ダウンサンプリングとトレンド推定¶

2.3 コンポジット解析¶

2.4 【参考】移動平均（時間フィルターの基礎）¶

【準備】複数のファイルを結合して長期時系列データを作る（1.1と同じ）¶

2.1 基本的な統計量の算出・相関係数¶

◆ 統計量を一括して表示する: describe()　メソッド¶

◆ 個別の統計量を計算する¶

【練習課題】2023年に猛暑日となった日数は？¶

◆ 相関係数: [pandas] .corr メソッド, [Numpy] np.corrcoef(x,y)¶

相関係数の定義¶

【練習課題】相関係数の定義に沿った方法で計算し、上記の結果と一致することを確かめよ。¶

【課題 2-1】データの期間内において、最高（最低）気温の最大（小）値を記録したのは何年何月何日か？（＋２点）¶

【課題 2-2】日降水量の頻度分布を描いてみよ。併せて、「10年に一度の発生頻度の雨」とはどの程度か求めてみよ（＋２点）¶

【課題 2-3】 6-8月の日最高気温について、異なる２つの期間（例：1982-2001と2002-2021）のヒストグラムを重ね合わせることで、極端気象の発現度に違いがあるか調べよ（＋２点）¶

2.2 ダウンサンプリングとトレンド推定¶

◆ データの間隔を変える: resample メソッド¶

◆ 曲線/直線でフィッティング：[関数] scipy.optimize.curvefit¶

【練習課題】年平均のデータを作り時系列で図示せよ。またこのデータに一次関数をフィッティングすることで、トレンドを推定せよ。¶

◆ 信頼区間の推定（詳細はこちらを参照）¶

【課題 2-4】回帰係数を以下の定義に従って直接計算し、上記の結果に一致することを確かめよ（＋２点）¶

【課題 2-5】真夏日/猛暑日の年間日数に長期変化はあるだろうか？図を描いて検討せよ（＋２点）¶

2.3 コンポジット解析　〜月平均値を作ってみる〜¶

【練習課題】月平均気温の年サイクルを求めよ。¶

A. Groupby メソッドを使った方法　¶

B. 真偽値関数を使う方法¶

(Step 1)１月の平均気温を計算してみる¶

（Step 2) Step1 を応用し、１−１２月の各月について月平均を算出して図示する¶

◆ 信頼区間の推定（詳細はこちらを参照）¶

【課題 2-6】上記の結果に年周期の三角関数をフィッティングすることで、季節変化の振幅を求めよ（＋2点）¶

【課題 2-7】曜日による気温の変動はあるだろうか？曜日によるコンポジット図を作成し、結果について簡単に考察せよ [ 参考：藤部 (2014) ]　（＋2点）¶

【課題 2-9】１時間毎のデータを使って、気温と気圧の平均的な日変化を求め、結果について簡単に考察せよ。京都と富士山のデータを比較すると面白い（＋2点）¶

2.5【参考】移動平均・時間フィルター: [pandas] rolling メソッド, [np] convolve 関数¶

【練習課題】31日移動平均を計算し、元のデータ時系列と併せて図示せよ。¶

属性	意味
year	年
month	月
day	日
hour	時間
dayofweek	曜日（0:月曜日...6:日曜日）
dayofyear	一年の何日目か

2. 時系列データの解析（統計解析・時系列解析）¶

2.1 基本的な統計量の算出¶

2.2 ダウンサンプリングとトレンド推定¶

2.3 コンポジット解析¶

2.4 【参考】移動平均（時間フィルターの基礎）¶

【準備】 複数のファイルを結合して長期時系列データを作る（1.1と同じ）¶

2.1 基本的な統計量の算出・相関係数¶

◆ 統計量を一括して表示する: describe() メソッド¶

◆ 個別の統計量を計算する¶

【練習課題】2023年に猛暑日となった日数は？¶

◆ 相関係数: [pandas] .corr メソッド, [Numpy] np.corrcoef(x,y)¶

相関係数の定義¶

【練習課題】相関係数の定義に沿った方法で計算し、上記の結果と一致することを確かめよ。¶

【課題 2-1】データの期間内において、最高（最低）気温の最大（小）値を記録したのは何年何月何日か？（＋２点）¶

【課題 2-2】日降水量の頻度分布を描いてみよ。併せて、「10年に一度の発生頻度の雨」とはどの程度か求めてみよ（＋２点）¶

【課題 2-3】 6-8月の日最高気温について、異なる２つの期間（例：1982-2001と2002-2021）のヒストグラムを重ね合わせることで、極端気象の発現度に違いがあるか調べよ（＋２点）¶

2.2 ダウンサンプリング と トレンド推定¶

◆ データの間隔を変える: resample メソッド¶

◆ 曲線/直線でフィッティング：[関数] scipy.optimize.curvefit¶

【練習課題】年平均のデータを作り時系列で図示せよ。またこのデータに一次関数をフィッティングすることで、トレンドを推定せよ。¶

◆ 信頼区間の推定（詳細はこちらを参照）¶

【課題 2-4】 回帰係数を以下の定義に従って直接計算し、上記の結果に一致することを確かめよ（＋２点）¶

【課題 2-5】 真夏日/猛暑日の年間日数に長期変化はあるだろうか？図を描いて検討せよ（＋２点）¶

2.3 コンポジット解析 〜月平均値を作ってみる〜¶

【練習課題】 月平均気温の年サイクルを求めよ。¶

A. Groupby メソッドを使った方法 ¶

B. 真偽値関数を使う方法¶

(Step 1)１月の平均気温を計算してみる¶

（Step 2) Step1 を応用し、１−１２月の各月について月平均を算出して図示する¶

◆ 信頼区間の推定（詳細はこちらを参照）¶

【課題 2-6】上記の結果に年周期の三角関数をフィッティングすることで、季節変化の振幅を求めよ（＋2点）¶

【課題 2-7】曜日による気温の変動はあるだろうか？曜日によるコンポジット図を作成し、結果について簡単に考察せよ [ 参考：藤部 (2014) ] （＋2点）¶

【課題 2-9】１時間毎のデータを使って、気温と気圧の平均的な日変化を求め、結果について簡単に考察せよ。京都と富士山のデータを比較すると面白い（＋2点）¶

2.5【参考】移動平均・時間フィルター: [pandas] rolling メソッド, [np] convolve 関数¶

【練習課題】31日移動平均を計算し、元のデータ時系列と併せて図示せよ。¶

【準備】複数のファイルを結合して長期時系列データを作る（1.1と同じ）¶

◆ 統計量を一括して表示する: describe()　メソッド¶

2.2 ダウンサンプリングとトレンド推定¶

【課題 2-4】回帰係数を以下の定義に従って直接計算し、上記の結果に一致することを確かめよ（＋２点）¶

【課題 2-5】真夏日/猛暑日の年間日数に長期変化はあるだろうか？図を描いて検討せよ（＋２点）¶

2.3 コンポジット解析　〜月平均値を作ってみる〜¶

【練習課題】月平均気温の年サイクルを求めよ。¶

A. Groupby メソッドを使った方法　¶

【課題 2-7】曜日による気温の変動はあるだろうか？曜日によるコンポジット図を作成し、結果について簡単に考察せよ [ 参考：藤部 (2014) ]　（＋2点）¶