top of page

2018中研院統計研習營-最後一天成果報告及結業式 (文字紀錄)

第一組:An Overview of Statistical Learning Methods-Part1

1. Data set:

Letter Recognition Dataset from UCI

A to Z

16個變數 : 佔的格數 ,偏左偏右...

變數之間的相關性 correlation

Dimension Reduction:PCA 取到9個components 90%

1.Clustering : K-means

result:FP兩個字母分不好

t-SNE 投影到二維 看分群的結果

2.Heirarchical

result: MN兩個字母分不好

3.Random Forest

RF=bagging+random-subspace C&RT

bagging:減少overfitting

Out-of-bag ( OOB)

Feature Selection: Permutation Test

QA:

Q:有沒有什麼解釋為何最重要的兩個 左右偏 上下偏

A:L與I之間的區分,後面第二組也是i分不好

第二組:An Overview of Statistical Learning Methods-Part2 (deep learning)

1.

epoch:60 調整參數的次數

batch size:1000

Layers:3

2.How to choose the number of neurons?

a. Try and Error Method:Forward/Backward Approach

b. Rule of Thumb Method:

選擇需要的變數的指標

i.

ii.

c. Simple Method

d. Sequential Orthogonal

e. 20 or 30 times of the input layer

3.Activation function

a. Sigmoid acc:0.8

b. Relu acc:0.9

4.Batch Normalization

5.Ensemble Learning (Stacking)

RF+SVM效果很好

第三組:An Overview of Statistical Learning Methods-Part3

(Supervised Learning)

1. LDA

假設:常態

Maximum

Bayes

Fisher: 找投影方向 組內變異跟組間變異的比

2. QDA

假設:常態 各組間的var不一樣

3. Kernal LDA

reduced kernal 矩陣太大 行向量隨機去選

acc:0.95

4. Logistic Regression

acc:0.72

5. Linear SVM

cost: 10

Acc: 0.85

6. kernel logistic regression

7. kernel SVM

acc:0.977

8. K-nearest neighbor

acc:0.94

第四組:2D cryo-em

SVM

MPCA降維

用視覺化降維 有label的informaiton

SVM 在2D image上的適用性

testing/training的切法

By defaut的比較方式是否合適

第五組:2D影像分類

MPCA降維 SVD決定維度 沒有label的資訊

Linear & non-linear SVM

cost:容錯率

1 5 10

Gaussian kernel SVM

gamma選擇0.001 acc 0.84 SVs 900多 比 0.01 acc 0.844 SVs 1900多的模型來的簡單

降維的結果比較好 推測因為可以去除雜訊

第六組:Deep Learning cryp-EM 2D classification with CNN

Layer有7層

CNN:

Convolution 可能會overfitting

Pooling : 減少overfitting

Flatten:

output

loss function :

mean squared loss

binary cross-entropy loss

Activation function:

sigmoid acc最高0.92

GPU vs. CPU

第七組:An Overview of Statistical Learning Theory

loss

risk, empirical risk

Consistency:

ERM principal

Entropy

VC-dim

VC-bound

SRM principal

第八組:運用統計預測賭盤

NBA 只看大小分

資料塞選 季後賽十年大概只有60場

變數塞選 共線性

KNN K=3

Logistic Regression

SVM

評估:

Mean absolute error

F1 score

Comment:

195 200 205是莊家選的,是否可以只看195的資料選出來做

樣本數不足的問題

第九組:

Data set: 128種 核糖體 6400張人工加的noise

K-means 對降維的做不好

但對K-means 沒有降維的做得不錯

第十組:Simulate Cryo-EM

PCA降維

K-means Clustering

Hierarchical Clustering

地理學上的分群方法

把資料相減

資料篩選

群聚與不群聚

分類

群聚判定-空間自相關

Rook's

Queen's

LISA Test

利用z score值來判斷

類別相同的話會是對稱

教授們結語:

統計的角度:population sample acc會不會變?

data structure

kernel 升高來處理 帶著noise

降維 減少noise 是否帶著足夠的訊息

PCA降維只保留linear的結構,是否有其他非線性data structure

我在想鄭老師講的升高帶著noise可能是指overfitting,所以tuning parameter C其實是在處理這個問題?

鄭順林教授

學到的東西,一直用一直想,就像學語文一樣,不用會忘記。

這只是開始而已。

和不同領域的人怎麼合作。

講出一個故事。

SVM ML比較偏向CS,不是只有考慮很準,在統計裡面還有檢定。

統計人的語言在要講給非統計人聽時要轉換成白話文,這樣才是一個好的方式來去傳遞我們的知識

潘建興教授

在做FANCY MODELING 時應該重視數學的依據 才會做的比較開心 開心最重要!

張陞懋教授

看到熱情,更有動力辦這樣的活動。

姚怡慶教授

從彼此身上也學到很多,在這樣的活動裡面很重要。

給學長學姊鼓勵。

攝影、姿秀行政同仁。

感謝各位教授,找了很多位教授。

憶萍老師花了很多心力在上面。

資料科學學程每年收三位博士生,可能是未來的一個管道。

問卷,是否改在其他地方舉辦。

陳君厚所長

(因為聽打較慢,故有些缺漏。)

活動相關連結:

1. 2018中研院統計研習營網頁

http://www3.stat.sinica.edu.tw/school2018/program.html


Featured Posts
Recent Posts
Follow Us
Archive
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square
Search By Tags
尚無標記。
bottom of page