기획자가 알아야 하는 AI 기초 용어
AI구현을 위해서는 알고리즘, 데이터, GPU (하드웨어) 가 필요하다,
그래서 요즘 엔비디아 주가가 난리난거임~(GPU는 병렬 산술계산이 어마어마하게 빠르다고 함)
빅데이터분석기사 자격증을 취득하면서 알게된 용어들도 많지만 요즘 랭체인과 스트림릿등으로 실제 구현 해보면서 사용하는 용어들을 정리해 본다. 기획자도 이정도는 알고 있어야 개발자들과 소통이 가능할테니까~
인공지능(AI) ⊃ 머신러닝(Machine Learning) ⊃ 딥러닝 (Deep Learning)
1. 인공지능(AI, Artificial Intelligence )
인간의 지능을 모방하는 컴퓨터 시스템.
알고리즘으로 데이터를 학습하여 모델을 만드는 기술. 여기서 모델이라 함은 우리가 chatGPT 덕분에 자주 듣는 LLM과 같은 것들이다. AI는 다양한 애플리케이션에서 사용되며, 특히 데이터 분석, 음성 인식, 이미지 처리, 자율 주행 등에 활용된다.
1-1. AI 개발도구
프로그래밍언어 : Python(파이썬)
프레임워크 : TensorFlow(텐서플로우), Keras (케라스) , PyTorch(파이토치) → 알고리즘이 포함되어 있음.
오픈소스 라이브러리 : NumPy (넘파이) , pandas (판다스) → 파이썬 패키지이다.
2. 머신러닝(ML , Machine Learning )
AI의 한 분야로, 명시적인 프로그래밍 없이 데이터를 입력받아 기계가 스스로 학습하여 성능을 개선하는 알고리즘과 기술. 머신러닝 모델은 데이터를 분석하고 패턴을 인식하여 예측을 수행
(전통적인 개발은 사람이 규칙을 정해서 개발을 하지만 머신러닝은 데이터를 학습함으로써 스스로 규칙을 만들어냄.)
2-1. 머신러닝 학습방법
1. 지도학습 : 문제도 주고, 답도준다.
데이터셋은 일반적으로 학습 데이터(Training Data), 검증 데이터(Validation Data), 테스트 데이터(Test Data)로 나눠진다. 나눈 데이터로 예측을 시키고, 평가를 한다.(정확도 혹은 오차율을 측정)
데이터셋의 품질은 모델의 성능에 큰 영향을 미친다.
- 예측은 Predict , 입력값은 Feature , 출력은 Label 라는 영어단어로 대화하니 알아두자! 코딩할때는 입력은 x 출력은 y 로 쓴다. (무엇(x)로 무엇(y)를 예측하고 싶다)
- 지도학습의 종류에는 어떤것을 예측하느냐에 따라 분류와 회귀 로 구분할 수 있다.
- 분석하고자 하는 목적변수(종속변수)가 범주형이라면 분류, 수치형이라면 회귀로 지도학습을 한다.
- 범주형이란 수치가 아닌데이터로 이루어진 것이다, 예를 들어 남자,여자, 과일,야채와 같이 숫자가 아닌값으로 분류를 할수 있는 값들을 학습시켜 결과를 예측하게 한다.
- 수치형이란 숫자형 데이터로 키와 몸무게 값을 주고 키값을 주었을때 몸무게 값을 예측하게 한다.
지도학습기법에는 랜덤포레스트,로지스틱회귀, 서포트백터머신,ANN 등이 있지만 우린 너무 깊게 들어가지 말자 ^___^
2. 비지도학습 : 문제만 주고 학습시킴. 데이터의 특징,패턴,구조를 도출하여 데이터 특성을 스스로 파악함.
- 비지도학습의 종류에는 군집화,차원축소,연관관계분석,딥러닝 등이 있다.
3. 강화학습 : 문제,답 모두 주지 않고, 컴퓨터가 선택한 행동에 대한 반응에 따라 보상을 준다.
- 여기서 보상(Reward)을 준다는 것은 에이전트가 취한 행동의 결과로 주어지는 피드백을 의미. 양의값을 준다던가 음의값을 줌.
- 에이전트 : 특정 목표를 달성하기 위해 환경에서 행동을 선택하고 그 결과를 학습하는 인공지능 시스템 또는 알고리즘.

잘 따라오고 있나? ㅋㅋㅋㅋ 정신줄을 붙잡아 보자!
3. 딥러닝(DL, Deep Learning )
인간의 뉴런에서 영감을 얻어 뇌의 정보처리방식을 모사한 인공신경망(ANN, Artificial Neural Networks)과 유사하게 여러층으로 깊이있게 구성하여 학습을 진행하는 머신러닝 알고리즘의 한 종류이다.
딥러닝은 복잡한 데이터 구조를 분석하고 처리하는 데 뛰어난 성능을 보이며, 이미지 인식, 음성 인식, 자연어 처리(NLP) 등에 사용된다.
3-1 딥러닝 알고리즘 종류
DNN Deep Neural Network 심층신경망 : 입력층, 다수의 은닉층, 출력층으로 구성. 입력층에서 가중치가 곱해져 은닉층으로 이동시키고, 은닉층에서도 가중치가 곱해지면서 다음 계층으로 이동한다. 출력층에서 입력층으로 가는것은 역전파 알고리즘이다, 순방향 전파와 역전파가 반복적으로 수행되면서 최적화된 결과를 도출한다.
식으로 표현하면 y = wx + b(bias) → w(가중치)와 b(편향)를 구하는 과정임.
CNN Convolutional Neural Network, 합성곱 신경망. 시각 이미지,오디오를 분석하는데 사용
RNN Recurrent Neural Network, 순환신경망:
입력 데이터를 순차적으로 처리하면서 이전 입력에 대한 정보를 기억하고, 이를 현재의 입력과 결합하여 출력. 이는 시계열 데이터, 자연어 처리, 음악 생성, 동영상 분석 등 시퀀스 데이터가 중요한 문제에서 매우 유용함. 순서가 있는 데이터 학습에 특화되어 있음.
이외에도 많은 알고리즘이 있다, 더 많은 지식을 알고 싶다면 빅데이터분석기사 자격증을 공부해 볼 것을 추천한다.개인적으로 전공자가 아니라면 AI를 공부 할 수 있는 가장 좋은 방법이라고 생각한다.
4. 자연어 처리(NLP , Natural Language Processing )
컴퓨터가 인간의 언어를 이해하고 처리하는 기술
NLP는 텍스트 분석, 번역, 음성 인식, 감정 분석 등에 사용.
대표적인 NLP 모델로는 opena ai의 GPT(Generative Pre-trained Transformer)와 구글의 BERT(Bidirectional Encoder Representations from Transformers)가 있다
5. 임베딩(embedding)
사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 과정 전체를 의미. 임베딩값이 비슷할수록 유사도가 높음.
6. 할루시네이션(Hallucination) 환각,
AI는 확률로 답변을 낸다. 맞는지 틀리는지 알수가 없다. 인간이 아니니까....
기준점 이상이면 확률이 높아서 마치 맞는 답인것처럼 그럴듯하게 거짓말로 답변을 쏟아낸다. 이런 현상을 할루시네이션이라고 한다.
7. RAG(Retrieval Augmented Generation)
할루시네이션이 생기는 이유는 과거데이터로 학습하고 근사치를 답변으로 내놓기 때문에 현재 상황을 반영하지 않는다. 그 문제점을 해결하기 위한 기술로 RAG가 대두 되었다. 검색과 생성모델을 결합하여 방대한 데이터베이스에서 관련 정보를 검색하고 텍스트를 생성한다.
8. 오버피팅(Overfitting) : 과적합
모델이 학습 데이터에 너무 맞춰져서 새로운 데이터에 대한 일반화 성능이 떨어지는 현상이다.
이를 방지하기 위해 정규화, 드롭아웃, 교차 검증 등의 기법을 사용한다.
9. 언더피팅(Underfitting)
모델이 학습 데이터의 패턴을 제대로 학습하지 못해 성능이 낮은 상태.
모델의 복잡성을 높이거나 더 많은 데이터를 사용하는 것이 해결 방법이 될 수 있다.
10. 하이퍼파라미터 (Hyperparameters)
하이퍼파라미터는 모델 학습 과정에서 조정되는 매개변수를 뜻한다.
예를 들어, 학습률(Learning Rate), 배치 크기(Batch Size), 은닉층의 수 등이 있다.
하이퍼파라미터 튜닝은 모델 성능을 최적화하는 데 중요한 역할을 한다.
12.파인튜닝 (Fine-Tuning)
파인튜닝은 사전 학습된 모델을 특정한 작업에 맞게 추가 학습시키는 과정이다.
사전 학습된 모델은 일반적인 데이터셋에서 학습되어 다양한 기본 기능을 이해하고 있다.
파인튜닝을 통해 이러한 모델을 보다 특정한 데이터셋과 작업에 맞게 조정함으로써 성능을 향상할 수 있다.
13.디지털트윈 (Digital Twin)
디지털 트윈(Digital Twin)은 물리적인 객체나 시스템을 디지털 세계에 동일하게 복제한 가상 모델을 의미. 이 기술은 실제 세계의 데이터를 실시간으로 반영하여 가상 모델을 업데이트하고, 이를 통해 다양한 분석과 예측을 가능하게 한다.