Category Archives: A.I.

Naive Bayesian Classifier Seminar

For more info : Naive Bayesian Classifier

 

***Peeking Into The Seminar***

Classifying is the basic feature of all machine learning. The most famous and widely known way of classifying is called Naive Bayesian. Naive Bayesian Classifier processes learn on the basis of Bayes’s theorem and hypothesis that all features are independent. Users can test its performance by pre-processing the learning data and inputting it into the Naive Bayesian classifier. Advantages that the Naive Bayesian classifier has over other classifiers are

1) It is very time-saving

2) It has low storage requirements

3) It shows a great performance

 

Thus, in the academic and business world, people should use and consider this as the standard for classifying texts. More information and explanations are in the powerpoint material attached. Lastly, these days, Deep Belief Network is widely used in the field of deep learning in conjunction with the Naive Bayesian classifier.

***세미나 엿보기***

  분류한다는 것은 기계학습에서 제일 기본적인 문제로 어떤 문제든지 분류는 그 것의 기본 밑바탕이 된다. 여기서 설명하는 것은 분류법 중에 가장 유명하면서 보편적인 나이브 베이지언 분류인데 나이브 베이지언은 베이즈 이론에 기반해서 모든 요소들이 서로 독립적이라는 가정을 두고 학습을 진행하는 것이다. 사용자가 훈련 데이터들을 전처리한 후 나이브 베이지언 분류기에 입력해서 학습을 시킨 후에 시험 데이터들로 성능을 실험해 볼 수 있다. 보통 나이브 베이지안 분류가 다른 분류기에 비해 가지고 있는 장점은

 

1) 시간 소요가 짧고

2) 메모리 용량을 크게 차지하지 않으며

3) 그럼에도 상당히 좋은 성능을 낸다는 것이다.

 

그러한 이유로 학계나 업계에서 이 분류법을 텍스트 분류의 기준치로 간주하고 사용하고 있다. 보다 구체적이고 폭넓은 설명은 ppt 자료에 소개되어 있다. 마지막으로 요즘은 베이지안 분류를 확장한 빌리프 네트워크를 활용해 딥러닝 분야에서 활발히 사용되고 있다고 한다.

Research references

These are resources Andy has collected for his presentation

Abbreviations are mentioned as follows:

 

세미나 발표를 위해서 Andy님께서 수집하셨던 자료들입니다

내용 참고 편의상 파일 앞부분에 Labeling 을 하였습니다

 

<참고>

 

DL – Deep Learning

ML – Machine Learning

NLP – Natural Language Processing

DL4NLP – Deep Learning for NLP

 

1. DL Deep Learning – Methods and applications – Li Deng and Dogn Yu
2. DL Tutorial on Deep learning and Application – Honglak Lee
3. DL4NLP – Richard Socher and Chris Manning
4. DL4NLP – Ronana Collobert & Jason Weston
5. DL4NLP and Applications – Yoshua Bengio
6. DL4NLP and Related Applications – Xiaodong He, Jianfeng Gao, Li Deng
7. DL4NLP Deep Learning – An introduction from the NLP Perspective – Kevin Duh
8. ML – A Probabilistic Perspective – Kevin Murphy
9. ML – Course material – Hal Daume
10. ML Finding patterns in the world – Mark Dredze
11. ML Intro to Machine Learning – Gunnar Ratsch
12. NLP – an introduction – Nadkarni
13. NLP – ML Methods – Michael Collins
14. NLP – Ramond Mooney
15. FACEBOOK deepface

Learning Deep Architectures for AI Seminar

For more info : Learning Deep Architectures for AI

 

This seminar was presented by Ash. The summary of this seminar is as follows.

 

***Peeking Into The Seminar***

Learning Deep Architectures for AI

     When people begin learning, they become aware of the most simple and complex concepts are learned step by step. When this occurs, the information is processed in the brain through interactions between a number of neurons which can be described as a myriad of layers. Using this concept, engineers can proceed sequentially in the treatment of their work. The deep learning technique whichis a the same processing method used in the human brain. In contrast to prior trends using shallow methods, deep learning techniques learn more complex concepts through each layer by performing the formation of deep structures like in the brain. As an example, the simplest layer just recognizes an image’s pixels, the next layer recognizes only edges, part of the face (object), and the whole face(object) in that order. As this process works automatically, it is possible to process things quickly without a human’s manual intervention. To realize this technique, deep learning structures should function as follows

It should be able to learn complex concepts

It should be able to learn more complex techniques with minimal human input

It should be able to learn a very large set of information

It should be able to learn from mostly unlabeled data

It should function well during unsupervised learning

Using borrowed neural network structures with higher-level concept RBM, it offers a more accurate, faster, and more convenient technique than the original neural network.  

이번 세미나는 Ash님 께서 맡아주셨습니다. 아래는 세미나의 요약본입니다.

 

 

***세미나 엿보기***

Learning Deep Architectures for AI

 

사람들은 처음 무언가를 배울 때 가장 단순한 개념부터 복잡한 개념까지 순차적으로 인지해나간다. 이 때 우리의 뇌에서는 수많은 뉴런들 사이의 교감으로 정보가 처리되는데 이것은 무수히 많은 층으로 묘사할 수 있다. 이런 개념을 차용해서 엔지니어들은 일의 처리에 있어 순차적으로 진행을 하는데 요새 가장 화두가 되고있는 deep learning 기법도 이런 뇌의 처리 방법을 따라한 것이다. 이전까지 유행했던 shallow 방법과 대비되는 deep learning 기법은 뇌처럼 깊은 구조를 형성하여 층마다 점점 복잡한 개념들을 학습해나간다. 예를들면, 가장 단순한 층에서는 이미지의 픽셀만을 인지하고, 그 다음 층에서는 모서리들만, 그 다음에는 얼굴의 한 부분들만, 그리고 마지막으로 얼굴들을 인식하게 되는 것이다. 이런 절차들이 자동으로 이루어지기 때문에 인간의 수동적인 개입없이도 빠른 처리가 가능하게 되었다. 이런 기능을 구현하기 위해서는 deep learning 구조가

1) 복잡한 기능들을 배울 수 있어야하고

2) 최소한의 인간의 개입으로도 더 복잡한 개념들을 배울 수 있어야 하며

3) 아주 거대한 셋의 정보들을 배울 수 있어야 하고

4) 대부분 정제되지 않은 데이터에서 배울 수 있어햐 하며

5) unsupervised 학습 능력이 강해야 한다.

 

뉴럴 신경망 구조를 차용해서 사용하는데 보다 더 고차원 개념인 RBM등을 이용하여 기존의 신경망보다 더 정확하며 빠르고 편리한 기능을 제공해준다. RBM에 관련된 보다 더 자세한 내용은 이 카테고리의 다른 글을 보면 될 것이다.

Introduction to EBM seminar

For more info : Introduction to EBM_072514

 

***Peeking Into The Seminar***

 

Part I

 
The basic concept of statistical models and machine learning is the measurement of dependence between variables. After capturing the dependence of input and output values and algorithms, it trains a machine to offer the highest dependence values from the new input values.

Energy-Based Models (EBMs) encode dependence by defining the energy of the input and output arrays. If the correlation is high, the energy of the array should be low. In the opposite case, energy function should be defined as high energy. Hence, the EBM is able to output the lowest value of energy for the input values.

In EBM, as the energy function is the function for the parameters, input values, and output values’ elements, it is possible to define the loss function which measures the quality of the energy function. Loss of function is usually a parameter’s function and it is an L(W). By finding the minimum loss function, it is able to find an optimized energy function. This is an EBM’s training process.

Y=x^2 training is a simple test to realize a machine algorithm. After exporting samples which can satisfy 200 y=x^2 between -1 and 1, the samples train a machine. Here, flat energy changes can be tested.

demo01-anim

 

Part II

 
Classic thermophysics can only calculate macrostates. For example, temperature, volume, number of molecules in objects, and so forth. However, even for the same macrostate, there are all different microstates of molecule arrays, locations, quantum states, and phase space states, or energy states. A microstate’s average should be the same as the measurement of the macrostate, and statistical dynamics will occur there.

For the most basic concept, there is the Ensemble concept. It can think of virtual concepts which is a collection of a myriad of microstates in macrostates. For the most common Canonical Ensemble, the volume, temperature, and certain number of molecules handle certain macrostates. For this case, microstates of energy can be different; each state is explained through probability distribution.

Also, like in EBM, when there is a yk value for any xi input, let (xi = yk) where it is a microstate. Then, so many microstates, (xi,y1), (xi,y2) …(xi,y)… can constitute its ensemble. This time, the probability of microstates can follow the Boltzmann distribution according to the earlier defined energy. RBM is a probability model that uses Nll loss function in EBM, it defines energy function and also defines loss of function, too. As a result, the process of minimizing the loss of function can be the learning method for RBM.

 

 

이번 세미나는 Wayne님 께서 맡아주셨습니다. 아래는 세미나의 요약본입니다.

***세미나 엿보기***

 

Part I

 

통계적 모델과 머신러닝의 기본 원리는 변수간의 의존도를 측정하는데에 있다. 입력값과 출력값 사이의 의존성을 측정하고 이를 알고리즘화 하여 새로운 입력값에 대해서 가장 의존성이 높은 값을 제시해줄 수 있도록 기계를 학습시키는 것이다.

EBM은 여기서의 의존성을 입출력 배열의 에너지를 정의함으로서 그 의존성을 표현한다. 상호관계가 높을 경우 그 배열의 에너지는 낮도록, 반대의 경우에는 에너지가 높도록 에너지 함수를 정의해야 한다. 따라서 EBM은 입력값과의 에너지가 가장 낮은 값을 출력할 수 있게 된다.

EBM에서 에너지 함수는 parameter와 입력값과 출력집합의 원소들과의 함수로 여기서 에너지 함수의 quality를 측정하는 함수인 손실함수(loss function)를 정의할 수 있다. Loss function은 보통은 parameter의 함수로써 L(W)로 볼 수 있으며 손실함수가 최소가 되는 W 를 찾음으로서 최적화된 에너지 함수를 구할 수 있다. 이 과정을 EBM의 트레이닝이 된다.

Y=x^2 training은 기계학습 알고리즘을 구현하는 간단한 테스트이다. -1 과 1사이의 200개의 y=x^2을 만족시키는 샘플을 추출한 후 그 샘플들로 기계를 학습시킨다. 여기서는 에너지평면의 변화를 확인해 볼 수 있다.

demo01-anim

Part II

 

고전적 열물리는 거시적인 상태만을 계산할 수 있었다. 예컨데 물질의 온도, 부피, 분자 수 등이다. 하지만 같은 거시적 상태더라도 분자들의 배열과 위치는 물론이고 자세히는 양자 상태, phase space에서의 상태 또는 에너지 상태 등이 다 다른 여러개의 미시적 상태들이 있다. 미시적 상태에서의 평균이 거시적 상태에서의 측정값과 같아야 하며 여기서 통계역학이 등장한다.

가장 기본적인 개념으로 앙상블의 개념이 있다. 한 거시적 상태에 대해서 무수히 많은 미시상태의 집합인 가상의 개념이라고 생각할 수 있다. 가장 보편적인 Canonical Ensemble의 경우 부피와 온도 그리고 분자수가 일정한 거시적 상태를 다룬다. 이 경우 미시상태의 에너지는 다를 수 있으며 각각의 상태를 확률분포로써 설명할 수 있다.

EBM에서도 마찬가지로 어떠한 입력 xi에 대한 yk의 값이 있을때 (xi,yk)를 미시상태라고 하면 수 많은 미시 상태들 (xi,y1) (xi,y2) … (xi,yk) … 의 앙상블을 생각해 볼 수 있으며 이때에 미시상태의 확률은 앞서 정의한 에너지에 따른 볼츠만 분포를 따른다고 할 수 있다.

RBM은 EBM에서 Nll loss function을 쓰는 확률 모델로, 에너지함수가 정의되며 이에 따른 손실함수또한 정의가 된다. 결국 그 손실함수를 최소화하는 과정이 RBM의 학습법이라고 볼 수 있게된다.

Seminar on Research related to NLP

For more info:Research presentation related in NLP

 

 

This seminar was presented by Ash. The summary of this seminar is as follows.

 

***Peeking Into The Seminar***

 

This seminar was about large Corpus-based automatic grammar rules and export methods for information. There are two types.

 

1. Edit : A broad-coverage grammar checker using grammar pattern recognition.

 

example)

Research presentation related in NLP pic

 

 

2. Information extraction from Web-scale N-gram data

example)

is(Laden, terrorist) – two words are connected with ‘is’

partOf(Laden,zihard) – a word connotes another word in two words

hasProperty(Laden,cruelty) – a word modifies the other word in two words.

 

 

For editing purposes, as the real purpose of this is editing sentences, it is used to edit a user’s sentences by exporting accurate grammar patterns. Therefore, there is no contribution from the information and relationship between words and sentences. In opposite, N-gram is about finding relationships among words and links to patterns. Only exporting patterns and relationships from large amounts of data, it can’t be used for other purpose. Furthermore, the grammar pattern correction in the future edits will drive and complete the system to correct paragraphs, pages, and text for the whole body of work. N-gram is expected to complete practicable programs which can draw relationships between words and various word relationships, inducing a complex interaction formula and improving the existing limitations. Through combining these two ways, grammar pattern collection has to be done by exporting the relationships and patterns between words and sentences among substantial amounts of data. Then, the editing system would be completed which can then be used to edit the user’s sentences, paragraphs, and complete writings automatically.

 

 

이번 세미나는 Ash 님께서 발제를 해주셨습니다.  아래는 세미나의 요약본입니다.

 

***세미나 엿보기***

이번 주제는 대규모 코퍼스 기반, 자동으로 문법 규칙 및 정보를 추출하는 방법에 대한 세미나입니다. 이에 두가지가 있습니다.

1. Edit : A broad-coverage Grammar chekcer using pattern grammar

예)

Research presentation related in NLP pic

 

2. Information extraction from Web-scale N-gram data

예)

isA(Laden, terrorist)                     – 두 단어는 ‘is’로 이어진다.

partOf(Laden, zihard)                  – 두 단어는 하나가 다른 단어를 내포한다.

hasProperty(Laden,cruelty)      – 두 단어는 하나가 다른 단어를 수식한다.

 

Edit의 경우 목적 자체가 문장 교정에 있으므로 정확한 문법 패턴을 추출해서 그것을 사용자의 문장을 고쳐줄 때 사용합니다. 따라서 단어나 문장들 간의 정보나 관계에 관해서는 기여하는 바가 없습니다.

N-gram은 반대로 단어 사이의 관계를 찾아내어 그것을 패턴으로 결부시키는 일을 합니다.오로지 주어진 대규모의 데이터에서 패턴이나 관계를 추출할 뿐, 그것을 이용해서 다른 일에 적용하거나 사용하지는 않습니다

Edit는 앞으로 문법 패턴 교정에서 나아가 문단, 페이지, 글 전체를 의미에 맞게 교정하는 시스템을 완성하는 방향으로, N-gram은 단어 사이의 관계 도출에서 나아가 여러 단어의 관계 도출, 복잡한 관계식 유도, 가지고 있는 한계들을 개선하여 실용가능성 있는 프로그램을 완성할 것이라고 기대해봅니다. 두방법을 통합하여 막대한 양의 데이터 사이에서 단어나 문장 사이의 관계와 패턴을 도출해내어 문법 패턴 모음집을 만든 후 그것으로 사용자의 문장, 나아가 문단이나 글 전체를 자동으로 교정해주는 시스템을 완성할 것입니다.

 

자세한 설명과 예제는 –> Research presentation related in NLP

Architecture and Adaptive Machinery for Human-Computer Conversation seminar

For more info : A Computational Architecture for Conversation_AKAStudy_071114

Andy made a presentation on this seminar and the introduction to this is as follows:

 

***Peeking Into The Seminar***

 

     This seminar was to study dissertations on inference methods and structuring that make human-computer interaction possible. This is about two dissertations from professor Eric Horvitz, a researcher at Microsoft, a leading company in computer conversation, and professor Tim Paek from Stanford. The first paper is about research on the Bayesian Receptionist, which functions through the front desk of the Microsoft Seattle office. It is based on the Bayesian Network which uses Bayesian Inference which utilizes information other than just statistical sampling. It makes inferences by transferring its way of understanding the purpose of the conversation into a structure with 3 layers. For example, if the Bayesian Receptionist judges that the user’s purpose is to find a shuttle bus, it automatically identifies whether he is alone or in a group and which way the bus is going. Additionally, it works on continuing the conversation asking whether the user needs a VIP or handicapped seat. Concepts that are used here are Natural Language Processing, Value of Information, and Decision-theoretic Control other than just Bayesian inference. The second paper contains the analysis on linguistic and visual information, and the errors occurring in the conversational channels and signals. It also includes strategies to control the whole conversation, make corrections automatically, manage possible threats. It has been a task for machine learning to analyze the conversation and compile it into a structure that computers can understand. It might require a lot of research not only in the field of computer science, but also in the field of psychology and statistics to predict where the conversation is going on and the cost of analyzing these, etc.

 

 

이번 세미나는 Andy님 께서 맡아주셨습니다. 아래는 세미나의 요약본입니다.

**세미나 엿보기***

이번 세미나는 인간과 컴퓨터간의 대화를 가능하게 해주는 추론 방식과 구조 설계에 관한 논문을 스터디하는 것으로 하였습니다.

Computer Conversation의 선두기업인 Microsoft 연구원인 Eric Horvitz교수와 스탠포드 대학 Tim Paek 교수의 공동 논문 두 편에 대한 내용입니다.

첫번째 논문은 MS사 시애틀 본사의 Front Desk에서 안내 역할을 하는 Bayesian Receptionist라는 시스템을 가지고 연구를 하였습니다. 통계적인 표집 이외의 부가적인 정보를 모두 활용하는 Bayesian Inference를 활용한 Bayesian Network를 기반으로 하고 있으며, 청자가 화자의 대화의 목적을 이해하는 방식을 3개의 계층 구조로 만들어 추론하는 형태입니다.

pic2_seminar140711

 

화자가 셔틀 버스를 찾는 것이 목적이라고 판단이 들면 어떤 방향으로 가는 셔틀인지? 혼자인지 그룹인지 등을 추가로 확인하고, 부차적으로는 셔틀에 장애인석이나 VIP석이 필요한지까지 확인하면서 대화를 이끌어가고 답변을 해주는 것입니다.

pic1_seminar140711

여기에 사용된 개념들에는 Bayesian inference이외에 자연어처리, value of information, decision-theoretic control 등이 있습니다.

두번째 논문에서는 좀더 범위를 확장하여 언어적, 시각적 정보 분석 뿐만 아니라, 대화의 채널과 시그널에서 발생하는 오류, 대화 전체를 통제하면서 자동적으로 수정해나가는 전략과 위험요소 관리 등도 포함하고 있습니다.

인간의 대화를 분석하여 제한적이나마 컴퓨터가 이해할 수 있는 구조를 만드는 일은 machine learning 분야의 오랜 숙제이지만, 대화가 처한 다양한 상황과 이에 맞게 수정하는데 필요한 비용을 분석하는 일은 CS(컴퓨터공학) 분야 뿐만 아니라 심리학과 통계학 등에서도 많은 연구가 필요할 것으로 보입니다.

 

For more info ; dissertations attached :

– A Computational Architecture for Conversation

– A Decision-Theoretic Perspective on Grounding in Conversational Systems

– Adaptive Machinery to Support Natural Conversations

DBNs, RBM seminar

We had an AKA AI seminar last Friday. We had our AI centers in the US and South Korea come together and Andy lead the seminar. The summary of the seminar is as follows:

1. RBM

RBM stands for Restricted Boltzmann Machine. It can be seen as a system in DBNs (Deep Belief Networks), which are multilayered nerve networks in an MLP form. We should understand the following concepts in order to understand DBNs and RBM.

i. MLP (Multilayer Perceptron)

ii. Stochastic Modeling

iii. EBM (Energy Based Model)

All three of the concepts mentioned above are of importance in machine learning and constructing theoretical backgrounds for DBNs and RBM. However, the three are basically independent from each other. Short explanations of the three concepts are as follows:

i. MLP

Background : MLP is an abbreviation of Multilayer Perceptron and is also known as a Multilayered nerve system. A problem occurred (an XoR problem) in the former single (layered) neuroblast, wherein the step fuction or hyper tangent/sigmoid function could not call nonlinear functions. Since MLP is a “Multilayered” nerve system (formed with three layers made up of input, output, and a hidden layer) which shows the output in a linear combination of transcendental functions, it can estimate every function in every format in an allowable tolerance.

Theory : A perceptron in each input layer gets the input data and sends it to the hidden layer. In this process, the perceptron calculates the data with two random parameters called ‘weight’ and ‘bias’ while a perceptron in the hidden layer also calculates the data with two random parameters called ‘weight’ and ‘bias’ to send to the output layer.

 

Machine Learning: A machine learns while the parameters in each layer modify themselves so the labelled input data fits in with the right output data..

ii. Stochastic Modeling

(omitted)

iii. EBM

EBM means an energy based model as it literally is. It is not a specific algorithm, but a method of how to look at the machine learning process. We define it as E(Xi,Yi)  when there is an input data Xi, output data set, and desired output data Yi which we call an ‘Energy function’.

In EBM based machine learning, it means ‘training’ to make E(Xi,Yi)>E(Xi,Yi’) happen. In this process, it is normal to define the Loss Function by modifying the parameter to make it as small as possible.

2. RBM

RBM is a model mixed up with 3 different backgrounds. It is a probability model using the Boltzmann probability distribution. DBNs are a kind of EBM which are structured with multi latyers and are conceptionally similar to MLP. The learning algorithm of an RBM is categorized into two levels.

i.pre-training

ii.fine tuning

In the case of MLP mentioned above, machine learning happens the other way round by using ‘back propagation’ to put the training data set in reverse order into the output, hidden, and input layer. However, in the case of MLP, which has one hidden layer, it can estimate almost every function in a given error range. Therefore, overfitting can occur in deep neural networks. That’s why we need the pre-training course. In the pre-training course, MLP uses a technique called MCMC(Markov Chain Monte Carlo), and in the special case of the Metropolis algorithm, it uses Gibbs Sampling. The pre-training of the data itself is an unsupervised process with no labelling value, and after this process fine tuning goes on which is known as supervised learning.

지난 금요일 아카 인공지능 세미나가 있었습니다. 미국 센터와 한국 센터에서 공동으로 진행을 하였으며 발제는 미국 센터의 Andy 님께서 맡아주셨습니다. 본문은 본 세미나 내용에 대한 요약본입니다.

1. RBM

RBM은 Restricted Boltzmann Machine 의 약어이다. MLP 형식의 다층 신경망인 DBNs (Deep Belief Networks)를 구성하는 체제라고 볼 수 있다. DBNs 와 RBM을 이해하기 위해서는 다음의 개념을 숙지하는 것이 필수이다.

i. MLP (Multilayer perceptron)
ii. Stochastic Modeling
iii. EBM (Energy Based Model)

위의 세 항목은 모두 기계학습에서 중요한 부분을 차지하는 파트이며 DBNs 와 RBM을 구성하는 이론적 배경이라고 볼 수 있다. 하지만 셋 모두 독립적인 이론적 분야이다. 아래에 위 세 항목에 대한 간단한 설명을 하도록 하겠다.

i. MLP
배경: MLP는 위에 말한대로 Multilayer perceptron 의 약자로 “다층 신경망”으로 번역이 가능하다. 기존의 단일 신경체 혹은 단층 신경체에서 step function 혹은 일반적인 활성화 함수(hyper tangent or sigmoid function) 로는 비선형함수를 호출할 수 없다는 문제 (XoR 문제)가 있었다. 하지만 MLP는 3층 이상 (1 입력층 1은닉층 1출력층)의 다층 신경구조로, 출력값이 초월함수의 선형결합으로 나타남으로 이론적으로 모든 원하는 형태의 함수를 특정 오차내로 근사할 수 있다.

이론: 각 입력층의 perceptron (이후로는 연산자로 칭함)들은 input data를 받아서 은닉층으로 데이터를 송신한다. 이 과정에서 weight 와 bias라는 두 임의의 parameter를 입력받은 데이터에 계산하며 은닉층의 연산자도 마찬가지로 입력받은 데이터에 은닉층의 weight와 bias라는 임의의 parameter를 계산하여 출력층으로 송신한다.

머신러닝: 라벨링이 되어있는 각각의 인풋데이터에 대해서 원하는 출력값에 맞추도록 각 층의 parameter를 수정하는 방향으로 기계학습이 진행이 된다.

ii. Stochastic Modeling
(설명생략)

iii. EBM
EBM은 말 그대로 에너지 기반의 모델을 의미한다. 특정 알고리즘을 지칭하는 것이 아닌, 기계학습의 과정을 어떻게 볼 것인가에 대한 한 방법론으로 생각할 수 있다. input data Xi 와 output data set(공역) Yi와 desired output data Yi’ 이 있을 경우 E(Xi,Yi)를 정의하며 이를 에너지 함수라고 부른다.

E(Xi,Yi)>E(Xi,Yi’)가 되도록 하는 것이 EBM을 이용한 기계학습에서 training을 뜻하며 이 경우 Loss Function(손실함수)를 정의하여 loss function이 최소가 되도록 parameter 를 수정하는 것이 일반적이다.

2. RBM

RBM은 1장에서 설명한 3가지의 배경이 혼합된 모델이라고 생각하면 편하다. Boltzmann 확률분포를 이용하는 확률모델이며 DBNs 는 RBM이 다층구조로 있는 형태를 띄며 개념적으로는 MLP와 흡사하며 EBM의 한 종류이다. RBM의 학습 알고리즘은 다음의 두 단계로 분류가 된다.

i. pre training
ii. fine tuning

위에서 언급한 MLP의 경우는 back propagation 방법으로 원하는 출력값이 나올 수 있도록 trainging dataset에 대해서 출력층부터 은닉층, 입력층까지의 각 층의 parameter들을 반대 순서로 맞춰가는 방향으로 기계학습을 한다. 다만 앞서 언급했듯 이론상으로 1개의 은닉층만으로 구성된 MLP의 경우 원하는 거의 모든 함수를 주어진 오차내로 근사가 가능하며 따라서 deep neural network의 경우 overfitting 이 발생하기 쉽다. 따라서 진행하는 것이 pre-training 과정이다. pre-training 에서는 MCMC(Markov Chain Monte Carlo)라는 기법을 사용하며 Metropolis algorithm의 특수경우인 Gibbs Sampling이 사용된다. (정확히 말하면 원래 형태의 Gibbs Sampling이 사용되지는 않는다.) 데이터 자체에 대해서 pre-training 하는 과정은 라벨링 값을 사용하지 않는 unsupervised 과정이며 이 과정이 끝난 후 fine tuning을 실행하며 이 과정은 supervised learning이라고 할 수 있다.

Learning Deep Architectures for AI

For more info : Learning Deep Architectures for AI

이번 세미나는 Ash님 께서 맡아주셨습니다. 아래는 세미나의 요약본입니다.

***세미나 엿보기***

 

Learning Deep Architectures for AI

사람들은 처음 무언가를 배울 때 가장 단순한 개념부터 복잡한 개념까지 순차적으로 인지해나간다. 이 때 우리의 뇌에서는 수많은 뉴런들 사이의 교감으로 정보가 처리되는데 이것은 무수히 많은 층으로 묘사할 수 있다. 이런 개념을 차용해서 엔지니어들은 일의 처리에 있어 순차적으로 진행을 하는데 요새 가장 화두가 되고있는 deep learning 기법도 이런 뇌의 처리 방법을 따라한 것이다. 이전까지 유행했던 shallow 방법과 대비되는 deep learning 기법은 뇌처럼 깊은 구조를 형성하여 층마다 점점 복잡한 개념들을 학습해나간다. 예를들면, 가장 단순한 층에서는 이미지의 픽셀만을 인지하고, 그 다음 층에서는 모서리들만, 그 다음에는 얼굴의 한 부분들만, 그리고 마지막으로 얼굴들을 인식하게 되는 것이다. 이런 절차들이 자동으로 이루어지기 때문에 인간의 수동적인 개입없이도 빠른 처리가 가능하게 되었다. 이런 기능을 구현하기 위해서는 deep learning 구조가 1) 복잡한 기능들을 배울 수 있어야하고 2) 최소한의 인간의 개입으로도 더 복잡한 개념들을 배울 수 있어야 하며 3) 아주 거대한 셋의 정보들을 배울 수 있어야 하고 4) 대부분 정제되지 않은 데이터에서 배울 수 있어햐 하며 5) unsupervised 학습 능력이 강해야 한다. 뉴럴 신경망 구조를 차용해서 사용하는데 보다 더 고차원 개념인 RBM등을 이용하여 기존의 신경망보다 더 정확하며 빠르고 편리한 기능을 제공해준다. RBM에 관련된 보다 더 자세한 내용은 이 카테고리의 다른 글을 보면 될 것이다.

스크린샷 2014-07-31 오후 2.55.46

AKA AI Forum

 
psychologydepartment
 

“무언가를 증명하는 것만으로는 충분치 않다. 그는 사람들을 유혹하거나 고양시켜 다다르도록 해야한다. 그것이 지식인이 그의 지혜를 이야기하는 법을 배워야 하는 이유이다.”
– 프리드리히 니체 –

아카 인공지능 포럼 AKA AI Forum을 시작합니다.

넥슨 NDC, 구글 I/O, 네이버의 DEVIEW, 모두 사내 컨퍼런스에서 시작되었다고 합니다. 이런 선배회사들의 사소한 패턴에 자극받아 아카도 드디어 사내 컨퍼런스를 오픈하기로 결정하였습니다.

당장 전쟁터에 던져진 스타트업이 사내에 스터디를 주기적으로 한다는 것은 너무나 힘든 일입니다. 이것은 내일 무엇을 먹을지, 어떻게 살아남아야 할지를 고민하는
가장이 밤에 호롱불을 밝히고 책장을 넘기며 기술을 연마하는 것과 비견되는 일이겠지요.

그렇지만 저희가 하고 있는 인공지능 AI 엔진과 그것의 기반된 상품을 개발하기위해서,  누구보다도 치.열.하.게. 논문을 읽고 고민하며 토의하는 열.정.들을 우리만 공유하고 흘려보내는 것도 쉽지 않은 일이었습니다. 인류와 호흡하는 아카 청년들로서는 감히 스스로 쉽게 용납하기 어려운 일이었습니다.

그래서 지난한 논쟁끝에 과감하게  사내 인공지능 AI 컨퍼런스 포럼 오픈을 결정하였습니다.

저희  아카 인공지능 포럼 AKA AI Forum은 다음과 같은 (기존의 전통있는/구닥다리 포럼들과) 다름이 있습니다.

첫째 인간의 두뇌가 잡다하듯 간학문적 interdisplinary 가로지르기 transformative 세미나를 지향합니다.  즉 인공지능 AI을 기반으로 하지만 NLP, deep learning ,물리학, 통계학부터 로보틱스를 넘어서 매크로 인더스트리등을 커버하는 잡다한 세미나가 될 듯 합니다.

둘째 다층적성 multi-dimensional 세미나를 지향합니다. 인간의 두뇌시스템이 다층적 구조를 가지고 있듯이 세미나의 수준도 ‘deep-learning’과 기초 개념을 오고가는 쉬움과 어려움이 혼재되어 있는 산만하고 불확실한 fuzzy한 상태를 지향합니다.

세째 인간의 세포가 죽는 순간까지 멈추지 않는 창조의 몸부림을 계속하듯 끊임없는 창조의 오픈성을 기반으로 합니다.  우리의 ‘오픈’에 대한 열정은 모든 분야의 관심을 가지고 있는 모든 사람들이 참여할 수 있도록 쉬운 언어와 ’10리를 무조건 더 가는’ ‘으리으리’한 자료 공유의 자세로 나타날 수 있을 것입니다.

요점은 우리는 이번 포럼을 통해서 조금만 더 지혜로워지고 우리의 보고 싶은 변화가 우리만을 통해서가 아니라 우리와 함께 하는 모든 이들에게 일어나기를 한 껏 바랍니다.

 

 

 

 

 

Muse babies coming soon!

muse_robot MUSE BABY M
MUSE BABY A
MUSE BABY G
COMING SOON!

“With massive amounts of computational power, machines can now recognize objects and translate speech in real time.
Artificial intelligence is finally getting smart.”

at AKA