통계표본으로부터 모집단을 추정하는 연구오전. 전체 학생의 규모 분포를 효과적으로 파악하고자 하는 상황에서 필요한 연구이다.
이러한 통계에 빅데이터를 적용하면서 몇 가지 변화가 생겼다. 이를 살펴보기 전에 통계의 오류와 재현성을 살펴보겠습니다.
실수
강의에서 설명하는 오류 유형이 그래픽으로 표시됩니다. 오차는 표본오차와 비표본오차로 나뉜다.
샘플링 오류“샘플에 대해 측정된 값이 모집단의 모든 값을 나타낼 수는 없다”는 의미에서 오류입니다. 그런 샘플링 오류는 샘플 수가 충분히 증가할수록 감소합니다. 그러나 현실에서 샘플 수를 늘리면 비용이 증가합니다.로 이어지기 때문에 기본적으로 샘플 최소화내가 할게.
비샘플링 오류는 표본오차 없이 발생하는 오류로서 조사과정에서 발생하는 응답오차, 무응답오차, 모델선정오차 등을 포함한다. 모델 선택 오류는 수집된 데이터가 비선형일 때 선형 모델을 선택하는 등의 오류로 인해 발생하는 오류입니다. 이 비표본 오류는 샘플 수를 충분히 늘려도 줄어들지 않고 계산이 불가능하다.
스몰/빅데이터에서의 재현성
재현성이것은 주어진 샘플로 구축된 이전에 추정된 결정 모델이 다른 샘플에서 동일한 패턴을 보일 것임을 의미합니다. 간단히 말해서 다른 샘플에서 가정 또는 결정의 재현성오전. 이 재현성은 데이터의 크기에 따라 다릅니다. 이런 맥락에서 스몰데이터와 빅데이터에 대한 설명을 추가했습니다.
작은 데이터기존 통계에서 주로 사용되는 데이터이며, 분석 목적의 데이터 수집그리고 특정 변수 사이에 실질적인 관계는 없지만, 브리지 문제를 해결해야 합니다.재산을 가지고 있습니다. 모델을 만들 때 이러한 작은 데이터에 데이터가 부족하기 때문에 모든 데이터 사용그런 다음 분포 가정에 의한 재현성 테스트하다.
빅 데이터작은 데이터와 달리 분석 목적과 상관없이 자동으로 획득 및 축적데이터 때문에 분석 및 해석 단계에서의 주의있어야 합니다. 이러한 빅데이터는 데이터가 풍부하기 때문에 분포에 의해 재현성이 입증되지 않습니다. 재현성을 경험적으로 확인재현성의 중요성에 대한 설명에서와 같이 모델을 구축하는 데 사용되는 데이터와 검증에 사용되는 데이터는 방대한 데이터셋으로 나누어지고 모델은 검증된 모델을 적용하는 실증적 과정을 거쳐 모델이 구축된다. 데이터를 확인해야 합니다.
통계 활용의 변화
데이터 | 측면 | 모델 | 매개변수 저장 | |
전통적인 통계 | 최소한의 데이터 수집 | 인구 구조 이해를 통한 추론 (보수적 시각) |
선형 중심 | 설명변수의 수를 최소화하여 분석의 자유도 확보 |
빅 데이터 액세스 | 수집된 데이터를 통한 분석 | 예측에 집중 (능동적 관점) |
비선형으로 확장 | 데이터가 많기 때문에 변수의 수는 중요하지 않습니다. |
위의 표는 빅데이터 도입 전후(2000년대 전후) 통계 활용의 변화를 보여준다. 과거에는 학문적 목적이 자신의 연구 가설을 증명하는 데 사용되었습니다.보다 통계를 사용하는 경우 현재는 예측, 의사결정 등 다양한 용도로 활용되고 있다.로 사용
특히 모델과거에는 데이터가 많지 않았기 때문에 관점에서 주로 선형 모델을 만들었습니다. 실제로 통계적 목표는 선형 모델로도 달성되었습니다. 감히 비선형 모델을 만든다면 고차원 모델을 쓸 수도 있겠지만 과적합(모델을 만들 때 사용한 데이터에 모델이 너무 딱 맞는 현상으로 다른 데이터에 적용하기가 더 어려운 현상. 주로 , 데이터가 작을수록 모델이 복잡합니다 위험이 높습니다) 위험이 높습니다. 현대에는 예측에 대한 초점이 통계적 목적을 넘어 비선형성을 포함하도록 확장되었습니다.
회귀 분석
회귀분석의 개념은 다음과 같은 과정에서 착상되었다. Francis Galton은 1875년에 부모의 키에서 아이의 키를 추정하는 방법을 알아내려고 했을 때 부모와 자녀 사이의 키 분포를 그래프에 점으로 표시했습니다. 경사를 보면 부모의 키와 비슷한 경향을 보이지만 평균에 근접볼 수 있었다
평균으로의 회귀!
“평균으로의 회귀!”
부모가 작으면 자식은 좀 작지만 보통이고, 반대로 부모가 크면 자식도 키가 크지만 평균에 가깝다.
위의 개념을 바탕으로 한 회귀분석의 핵심 개념은 부모의 키를 기준으로 아이의 키를 추정할 수 있습니다.오늘날 우리가 회귀 분석을 말할 때 뒤로 가는 경향을 의미하는 정도가 약해졌지만 이러한 역사적 배경 때문에 회귀 분석을 계속 작성한다는 것입니다.
오늘날 회귀 분석이 의미하는 바는 한 단어로 요약할 수 있습니다. 회귀분석은 관측값을 가장 가깝게 지나는 직선이나 곡선의 방정식을 구하는 방법이다.오전. 이 경우 오차가 가장 작은 모델이 최상의 모델입니다.
오차를 계산할 때 오차의 합이나 오차의 제곱합을 구할 수 있는데 수학적으로 하기 쉽기 때문에 오차의 제곱합을 구하는 경향이 있다.