분류 전체보기 31

Porter Stemmer 구현 - VC_count 알고리즘

6/30 언어공학 수업 Martin F.Porter가 1980년 착안한 stemming 알고리즘 python으로 구현해보기 Stemming = 영어단어에서 접사(affix)를 제거하고 핵심적인 의미를 가지는 어간(stem)을 추출하는 과정 Porter의 algorithm for suffix stripping 에 나오는 단어의 consonant와 vowel의 연속개수를 counting 하고 단계적으로 규칙을 적용하여 stem을 추출하는 아이디어를 코드로 구현해보자 def VC_count (stem): vowel = ['a','e','i','o','u'] consonant = ['b','c','d','f','g','h','j','k','l','m','n','p','q', 'r','s','t','v','w',..

카테고리 없음 2022.07.02

언어공학 수업 기록

6/27 첫수업 , 6/28 두번째 수업 morphology 형태론 Lexicon Syntax 구조론 문법 Phonetics 음성학 Phonology Semantics 의미론 오늘 여러분과 함께 수업하게 되어 기뻐요! im happy to be here with you today! 촘스키의 mental grammar. - 언어습득이론 = 인간의 언어습득능력은 생득적인 것이다. 어떻게 기계에게 맥락을 학습시킬 수 있을까? 인간은 어떻게 언어를 이해할까? Rule-based -> ML -> Deep Learning phonetics & Phonology - both deal with speech sounds - phonetics studies the surface, physical aspects of sou..

카테고리 없음 2022.07.01

Logistic Classification in R (로지스틱 이항분류)

종강도 했으니 다시 이번학기 배운 내용들을 정리하면서 꾸준히 블로그에 기록해놓을 생각 로지스틱 회귀모형 (logistic regression model) 위 처럼 타겟변수 y가 이항변수인 경우 이를 예측하기 위한 회귀모형은 선형회귀식과는 조금 다르다. 이와같은 타겟변수를 선형회귀식에 적합시키려하면 다음과 같은 형태가 될텐데 이 방법은 모형이 출력하는 예측값이 실수값이기 때문에 그대로 적용하는 것이 곤란해진다. 예를들어 0.35나 -1.5와 같은 값이 y의 예측값으로 도출되었을 경우 이 값을 이항변수 y에서 0이나 1로 분류하는 기준이 필요할 것이다. 우선 반응변수 y가 이항변수인 경우 조건부 평균을 따져보면 학습해야 하는 회귀함수가 조건부 "확률"값을 도출해줘야 한다. 함수값이 0과1 사이의 범위로 제한..

카테고리 없음 2022.06.22

한국외대 데이터 청년캠퍼스 면접 후기

한국외대에서 진행하는 2022년 데이터 청년캠퍼스 과정에 합격해서 간단한 후기를 남기려한다. 기존에 관심이 있었으나 서울캠에서 무려 대면으로 주5일 10to6를 한다는 소리를 듣고 기겁을하고 쳐다도 안보다가 어떻게 과 동기의 꼬임에 넘어가서 신청하게되었다. 10개 대학정도가 데이터 청년캠퍼스 지원사업에 선정되어서 각각 다른 특화과정으로 진행하는데 외대는 유일하게 자연어처리를 중점적으로 다룬다고 홍보해서 뭔가 나의 궁극적인 목표와 맞닿을 수 있을 것 같은 막연한 기대감에 일단 지원은 해보자 식으로 지원하기로 결심했음. #1차 지원서 자소서를 급하게 쓰느라 막상 필요한 내용들이 누락되거나 경력사항이나 자격사항 몇개가 저장이 안된 상태로 제출이 되었는데 어찌되었든 합격하게 되었다. 우선 지원서는 자격사항이나 ..

카테고리 없음 2022.06.18

시계열분석의 정상성 (stationarity)

시계열분석에서의 정상성(stationarity)? 의미 : 시점에 상관없이 시계열의 특성이 일정하다 정의: 1. 평균이 일정하다. (시점 t에 의존하지 않는다.) 2. 분산도 시점에 의존하지 않는다. (분산이 일정하다) 3. 공분산은 단지 시차에만 의존한다. 1 > 평균이 일정하며 시점 t에 의존하지 않는다, 즉 모든 t에 대해 2 > 분산도 시점 t에 의존하지 않기 때문에 모든 t에 대해 문제의 3번 > 공분산이 단지 시차에만 의존한다는 것이 무슨 뜻일까? 정상적인 시계열은 시간이 흐를수록 과거의 자료가 현재의 자료에 미치는 영향이 점점 줄어든다. 즉, 정상성을 가진 시계열은 자료간 시차가 커질수록 관계성이 줄어든다. 그래서 시계열 자료 Zt와 Zs 간의 공분산은 단지 시차 (lag) t-s 에만 의존..

카테고리 없음 2022.03.16

[시계열분석] 강의록 1

3/16 강의 내용 정리 ( 한국외대 통계학과 신기일교수님 시계열분석 강의) 시계열분석의 목적 1. 모형화 : 필요한 정보와 필요없는 부분을 분해하여 필요한 정보를 간단하게 표현 2. 예측 : 얻어진 모형을 이용하여 미래를 예측 시계열 분석에 필요한 기초적 통계이론들의 간단한 정리 - 확률변수? = 관심있는 숫자로 어떤 사건을 요약, 표시하는 것. * 시계열분석에서는 연속 확률변수 (continuous random variable)만을 고려함 * 정규 확률밀도함수 (normal probability density function) - 기대값과 분산, 공분산과 상관계수 * 기대값(평균): * 분산: * 공분산: * 상관계수: - 중심극한 정리 * 확률변수가 독립이고 임의의 분포를 따르며 μ 와 σ²을 각각..

카테고리 없음 2022.03.16

B.L.U.E 와 B.L.U.P (최소평균제곱오차예측)

3/15 수업기록 (한국외대 통계학과 신기일 교수님의 시계열분석 강의를 바탕으로 작성했습니다. 틀린내용이 있다면 교수님이 오개념을 설명한 것이 아니라 작성자가 오기록 한 것입니다.) 회귀분석에서 예측시 주로 사용하는 B.L.U.E = Best Linear Unbiased Estimate (최소분산 선형 불편추정량) 시계열분석에서 예측시 사용하는 B.L.U.P = Best Linear Unbiased Prediction # 여기서 Best가 의미하는 바는 무엇일까 시계열분석에서의 예측(forecast)? 모형을 찾아 낸 후 주어진 모형을 바탕으로 예측 예측방법: 최소평균제곱오차예측 - MSE(minimum Mean Square Error forecast) = 예측오차의 분산을 최소로 해주는 예측값 시계열분..

카테고리 없음 2022.03.15

시계열 분석(Time series analysis) 훑어보기

3/8 강의 내용 정리 및 추가 공부 부분 (한국외대 통계학과 신기일 교수님의 시계열분석 강의를 참고하여 작성했습니다.) 교수님은 통계를 배우는 우리는 "과학하는 사람들"이라는 말을 계속 강조하셨다. 시계열 자료의 분석 목적? 모형화(modeling)와 예측(forecast) ! y = 3x + 2 -> model x=4, y=>14 -> prediction (다만 시계열은 미래를 예측하는 학문이므로 forecast라는 말을 많이 사용한다) 시계열분석은 정해진 순서대로, 정해진 양식대로, 정해진 용어와 방식으로! 회귀분석과 시계열분석의 가장큰 차이점은 자료의 순서가 중요하다는 것. 회귀분석은 순서가 상관없기 때문에 선으로 연결할 필요가 없지만 시계열분석은 순서가 중요하기 때문에 선을 연결한 그래프로 표현..

카테고리 없음 2022.03.08

[수리통계] 자유도 n-1과 불편추정량

3/7일 수리통계학 첫수업 듣고 단편적인 개념들 정리 (한국외대 이석호 교수님의 수리통계학 수업과 통계의본질 블로그를 참고하여 정리했습니다.) 위는 흔히 통계를 접하면서 배우는 분산식이다. 일반적인 모분산은 변량의 제곱의 합을 집단의 크기n으로 나누어서 구한다. 하지만 표본의 경우는 집단의 크기가 아닌 '집단의 크기 -1' (n-1)로 나누어서 구한다. 왜 n 이 아닌 n-1로 나눠주는 걸까? ​1. 불편추정량? 우선 표본분산을 구할 때 집단의 크기에서 -1 해준 값으로 나누는 것은 표본 분산을 불편추청량으로 만들어주기 위함이다. 불편추정량은 편의(bias)가 없는 추정량을 의미하며 여기서 편의란 추정량의 기댓값과 실제 모수와의 차이를 나타낸다. 통계에서는 어떠한 모집단을 설정하고 이 모집단에서 rand..

카테고리 없음 2022.03.08

과적합, 오버피팅(overfitting)

3/4 금요일 머신러닝 수업 이후 기록 (한국외대 통계학과 정석오 교수님의 통계적기계학습 수업과 유튜브 채널 허민석님 강의자료를 참고해서 작성했습니다.) 머신러닝에서는 모형의 적합도 보다는 예측의 정확도를 더 중요하게 여긴다. 모형의 적합도를 지나치게 강조하게 되면 과적합(overfitting)문제가 발생할 수 있기 때문. overfitting ? ex) 당신이 부모가 되어 태어난지 얼마 지나지 않은 아이에게 공이라는 물체를 구분할 수 있는 방법을 가르친다고 가정해보자. 당신은 집에있는 야구공, 축구공, 농구공을 예시로 아이에게 보여주며 이것들 처럼 동그랗게 생긴 것이 공이라고 가르친다. 이제 아이가 제대로 배웠는지 테스트해볼 시간이다. 하지만 불행히도 아직 데이터가 부족한 아이는 앞서 보여준 세개의 단..

카테고리 없음 2022.03.05