2018中研院統計研習營-最後一天成果報告及結業式 (文字紀錄)
第一組:An Overview of Statistical Learning Methods-Part1
1. Data set:
Letter Recognition Dataset from UCI
A to Z
16個變數 : 佔的格數 ,偏左偏右...
變數之間的相關性 correlation
Dimension Reduction:PCA 取到9個components 90%
1.Clustering : K-means
result:FP兩個字母分不好
t-SNE 投影到二維 看分群的結果
2.Heirarchical
result: MN兩個字母分不好
3.Random Forest
RF=bagging+random-subspace C&RT
bagging:減少overfitting
Out-of-bag ( OOB)
Feature Selection: Permutation Test
QA:
Q:有沒有什麼解釋為何最重要的兩個 左右偏 上下偏
A:L與I之間的區分,後面第二組也是i分不好
第二組:An Overview of Statistical Learning Methods-Part2 (deep learning)
1.
epoch:60 調整參數的次數
batch size:1000
Layers:3
2.How to choose the number of neurons?
a. Try and Error Method:Forward/Backward Approach
b. Rule of Thumb Method:
選擇需要的變數的指標
i.
ii.
c. Simple Method
d. Sequential Orthogonal
e. 20 or 30 times of the input layer
3.Activation function
a. Sigmoid acc:0.8
b. Relu acc:0.9
4.Batch Normalization
5.Ensemble Learning (Stacking)
RF+SVM效果很好
第三組:An Overview of Statistical Learning Methods-Part3
(Supervised Learning)
1. LDA
假設:常態
Maximum
Bayes
Fisher: 找投影方向 組內變異跟組間變異的比
2. QDA
假設:常態 各組間的var不一樣
3. Kernal LDA
reduced kernal 矩陣太大 行向量隨機去選
acc:0.95
4. Logistic Regression
acc:0.72
5. Linear SVM
cost: 10
Acc: 0.85
6. kernel logistic regression
7. kernel SVM
acc:0.977
8. K-nearest neighbor
acc:0.94
第四組:2D cryo-em
SVM
MPCA降維
用視覺化降維 有label的informaiton
SVM 在2D image上的適用性
testing/training的切法
By defaut的比較方式是否合適
第五組:2D影像分類
MPCA降維 SVD決定維度 沒有label的資訊
Linear & non-linear SVM
cost:容錯率
1 5 10
Gaussian kernel SVM
gamma選擇0.001 acc 0.84 SVs 900多 比 0.01 acc 0.844 SVs 1900多的模型來的簡單
降維的結果比較好 推測因為可以去除雜訊
第六組:Deep Learning cryp-EM 2D classification with CNN
Layer有7層
CNN:
Convolution 可能會overfitting
Pooling : 減少overfitting
Flatten:
output
loss function :
mean squared loss
binary cross-entropy loss
Activation function:
sigmoid acc最高0.92
GPU vs. CPU
第七組:An Overview of Statistical Learning Theory
loss
risk, empirical risk
Consistency:
ERM principal
Entropy
VC-dim
VC-bound
SRM principal
第八組:運用統計預測賭盤
NBA 只看大小分
資料塞選 季後賽十年大概只有60場
變數塞選 共線性
KNN K=3
Logistic Regression
SVM
評估:
Mean absolute error
F1 score
Comment:
195 200 205是莊家選的,是否可以只看195的資料選出來做
樣本數不足的問題
第九組:
Data set: 128種 核糖體 6400張人工加的noise
K-means 對降維的做不好
但對K-means 沒有降維的做得不錯
第十組:Simulate Cryo-EM
PCA降維
K-means Clustering
Hierarchical Clustering
地理學上的分群方法
把資料相減
資料篩選
群聚與不群聚
分類
群聚判定-空間自相關
Rook's
Queen's
LISA Test
利用z score值來判斷
類別相同的話會是對稱
教授們結語:
統計的角度:population sample acc會不會變?
data structure
kernel 升高來處理 帶著noise
降維 減少noise 是否帶著足夠的訊息
PCA降維只保留linear的結構,是否有其他非線性data structure
我在想鄭老師講的升高帶著noise可能是指overfitting,所以tuning parameter C其實是在處理這個問題?
鄭順林教授
學到的東西,一直用一直想,就像學語文一樣,不用會忘記。
這只是開始而已。
和不同領域的人怎麼合作。
講出一個故事。
SVM ML比較偏向CS,不是只有考慮很準,在統計裡面還有檢定。
統計人的語言在要講給非統計人聽時要轉換成白話文,這樣才是一個好的方式來去傳遞我們的知識
潘建興教授
在做FANCY MODELING 時應該重視數學的依據 才會做的比較開心 開心最重要!
張陞懋教授
看到熱情,更有動力辦這樣的活動。
姚怡慶教授
從彼此身上也學到很多,在這樣的活動裡面很重要。
給學長學姊鼓勵。
攝影、姿秀行政同仁。
感謝各位教授,找了很多位教授。
憶萍老師花了很多心力在上面。
資料科學學程每年收三位博士生,可能是未來的一個管道。
問卷,是否改在其他地方舉辦。
陳君厚所長
(因為聽打較慢,故有些缺漏。)
活動相關連結:
1. 2018中研院統計研習營網頁
http://www3.stat.sinica.edu.tw/school2018/program.html