t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2024)

Eine der häufigsten Voraussetzungen für statistische Testverfahren ist, dass die verwendeten Daten normalverteilt sind. Wenn z.B. ein t-Test oder eine ANOVA berechnet werden soll, muss zunächst geprüft werden, ob die Daten bzw. Variablen normalverteilt sind.

Die Annahme der Normalverteilung ist auch für die lineare Regressionsanalyse wichtig, aber in diesem Fall ist es wichtig, dass der Fehler, den das Modell macht, normalverteilt ist und nicht die Daten selbst.

Nichtparametrische Tests

Wenn die Daten nicht normalverteilt sind, können die oben genannten Verfahren nicht angewendet werden und es müssen nichtparametrische Tests verwendet werden. Nichtparametrische Tests setzen keine Normalverteilung der Daten voraus.

Wie wird die Normalverteilung geprüft?

Die Normalverteilung kann entweder analytisch oder graphisch geprüft werden. Die gebräuchlichsten analytischen Tests zur Überprüfung der Normalverteilung von Daten sind:

  • Kolmogorov-Smirnov Test
  • Shapiro-Wilk Test
  • Anderson-Darling Test

Zur grafischen Überprüfung wird entweder ein Histogramm oder besser der Q-Q-Plot verwendet. Q-Q steht für Quantil-Quantil-Plot, wobei die tatsächlich beobachtete Verteilung der theoretisch erwarteten Verteilung gegenübergestellt wird.

Analytische Prüfung der Daten auf Normalverteilung

Um deine Daten analytisch (mit statistischen Tests) auf Normalverteilung zu prüfen, gibt es verschiedene Test verfahren, die bekanntesten sind der Kolmogorov-Smirnov Test, der Shapiro- Wilk Test und der Anderson Darling Test.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (1)

Mit all diesen Tests prüfst du die Nullhypothese, dass deine Daten normalverteilt sind. Die Nullhypothese lautet also, dass die Häufigkeitsverteilung deiner Daten normalverteilt ist. Um die Nullhypothese zu verwerfen oder nicht zu verwerfen, erhältst du bei all diesen Tests einen p-Wert. Entscheidend ist, ob dieser p-Wert kleiner oder größer als 0,05 ist.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2)

Ist der p-Wert kleiner als 0,05, wird dies als signifikante Abweichung von der Normalverteilung interpretiert und man kann davon ausgehen, dass die Daten nicht normalverteilt sind. Wenn der p-Wert größer als 0,05 ist und man statistisch ganz sauber sein will, kann man nicht unbedingt sagen, dass die Häufigkeitsverteilung normalverteilt ist, man kann nur die Nullhypothese nicht widerlegen.

In der Praxis wird jedoch, auch wenn dies nicht ganz korrekt ist, ab einem Wert größer als 0,05 von einer Normalverteilung ausgegangen. Trotzdem sollte immer auch die graphische Lösung betrachtet werden.

Anmerkung: Mit dem Kolmogorov-Smirnov-Test und dem Anderson-Darling-Test können auch andere Verteilungen als die Normalverteilung getestet werden.

Nachteil der analytischen Tests auf Normalverteilung

Leider hat die analytische Methode einen großen Nachteil, weshalb immer mehr zu grafischen Methoden übergegangen wird.

Das Problem ist, dass der berechnete p-Wert von der Größe der Stichprobe beeinflusst wird. Wenn du eine sehr kleine Stichprobe hast, kann es daher sein, dass dein p-Wert weit größer als 0,05 ist, wenn du aber eine sehr große Stichprobe aus der gleichen Grundgesamtheit hast, kann es sein, dass dein p-Wert kleiner als 0,05 ist.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (3)

Angenommen, die Verteilung in der Grundgesamtheit weicht nur geringfügig von der Normalverteilung ab, dann erhält man bei einer sehr kleinen Stichprobe einen sehr großen p-Wert und geht daher von normalverteilten Daten aus. Nimmt man jedoch eine größere Stichprobe, dann wird der p-Wert immer kleiner, obwohl die Stichproben aus derselben Grundgesamtheit mit derselben Verteilung stammen. Mit einer sehr großen Stichprobe kann man sogar einen p-Wert von weniger als 0,05 erhalten und damit die Nullhypothese der Normalverteilung verwerfen.

Um dieses Problem zu umgehen, sollten zusätzlich auch immer grafische Verfahren verwendet werden.

Grafische Prüfung auf Normalverteilung

Um die Normalverteilung grafisch zu überprüfen, kann man sich entweder das Histogramm oder besser noch den Q-Q Plot ansehen.

Wenn du die Normalverteilung mit Hilfe eines Histogramms überprüfen möchtest, zeichne die Normalverteilung in das Histogramm deiner Daten ein und überprüfe, ob die Verteilungskurve der Daten ungefähr der Normalverteilungskurve entspricht.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (4)

Besser ist jedoch der so genannte Quantil-Quantil-Plot oder kurz Q-Q-Plot. Hier werden die theoretischen Quantile, die die Daten bei perfekter Normalverteilung haben müssten, den Quantilen der Messwerte gegenübergestellt.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (5)

Wenn die Daten perfekt normalverteilt wären, würden alle Punkte auf der Linie liegen. Je weiter die Daten von der Linie abweichen, desto weniger sind die Daten normalverteilt.

Zusätzlich zeigt DATAtab das 95%-Konfidenzintervall an. Wenn alle oder fast alle Daten innerhalb dieses Intervalls liegen, ist dies ein sehr starker Hinweis darauf, dass die Daten normalverteilt sind. Nicht normalverteilt sind sie z. B., wenn sie einen Bogen bilden und in einigen Bereichen weit von der Linie entfernt liegen.

Normalverteilung in DATAtab prüfen

Wenn du deine Daten auf Normalverteilung prüfen möchtest, kopiere sie deine Daten einfach in die Tabelle von DATAtab, klicke dann auf deskriptive Statistik und wähle die Variable aus, die du auf Normalverteilung prüfen möchtest. Anschließend, klickst du auf „Normalverteilung prüfen“ und du bekommst die Ergebnisse.

Wie sehen die Ergebnisse aus? Zuerst bekommst du die analytischen Testverfahren übersichtlich in einer Tabelle, dann kommen die grafischen Testverfahren.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (6)

Wenn du deine Daten auf Normalverteilung prüfen möchtest, kopiere deine Daten einfach in die Tabelle auf DATAtab, klicke auf deskriptive Statistik und wähle dann die Variable aus, die du auf Normalverteilung prüfen möchtest. Anschließend, einfach auf Normalverteilung prüfen klicken und du bekommst die Ergebnisse.

Hinweis: Wenn du einen Hypothesentest mit DATAtab berechnest, dann kannst du bei jedem Hypothesentest die Voraussetzungen prüfen. Handelt es sich zum Beispiel bei der Normalverteilung um eine Voraussetzung, dann bekommst du auch die Prüfung auf Normalverteilung.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2024)

FAQs

Is the t-test a regression or ANOVA? ›

The t test can be thought of as a simple regression model with the covariate taking on only two values, and the ANOVA can also be viewed as a regression model with multiple covariates. More complicated ANOVA models can also be thought of in regression frameworks.

When to use t-test chi-square or ANOVA? ›

We use a t-test to compare the mean of two given samples but we use the chi-square test to compare categorical variables.
  1. Z-Test. In a z-test, we assume the sample is normally distributed. ...
  2. ANOVA. We use analysis of variance (ANOVA) to compare three or more samples with a single test.

What statistical analysis should I use for correlation? ›

Pearson's correlation coefficient (r) is used to demonstrate whether two variables are correlated or related to each other. When using Pearson's correlation coefficient, the two vari- ables in question must be continuous, not categorical.

Is ANOVA correlation or regression? ›

Thus, ANOVA can be considered as a case of a linear regression in which all predictors are categorical. The difference that distinguishes linear regression from ANOVA is the way in which results are reported in all common Statistical Softwares.

What is the difference between t-test and regression? ›

The main difference is that t-tests and ANOVAs involve the use of categorical predictors, while linear regression involves the use of continuous predictors. When we start to recognise whether our data is categorical or continuous, selecting the correct statistical analysis becomes a lot more intuitive.

Why use ANOVA instead of regression? ›

It is the same as Linear Regression but one of the major differences is Regression is used to predict a continuous outcome on the basis of one or more continuous predictor variables. Whereas, ANOVA is used to predict a continuous outcome on the basis of one or more categorical predictor variables.

What is chi-square test and t-test used for? ›

The t-test and the chi-square test are two different statistical tests used for different types of data. The t-test is used to compare the means of two groups and is suitable for continuous numerical data. On the other hand, the chi-square test is used to examine the association between two categorical variables.

When would we choose ANOVA over t-test? ›

The Student's t test is used to compare the means between two groups, whereas ANOVA is used to compare the means among three or more groups.

What is the difference between chi-square test and regression analysis? ›

Chi-square test is used to analyze nominal data mostly in chi-square distributions (Satorra & Bentler 2001). The distribution of data in the chi-square distribution is positively skewed. Regression analysis is used to test the relationship between independent and dependent variables in a study.

When to use correlation vs regression? ›

The most commonly used techniques for investigating the relationship between two quantitative variables are correlation and linear regression. Correlation quantifies the strength of the linear relationship between a pair of variables, whereas regression expresses the relationship in the form of an equation.

When to use a t-test? ›

A t-test may be used to evaluate whether a single group differs from a known value (a one-sample t-test), whether two groups differ from each other (an independent two-sample t-test), or whether there is a significant difference in paired measurements (a paired, or dependent samples t-test).

Which two statistical tests are only used for Analysing correlations? ›

The most common tests for correlation include:
  • Pearson's correlation coefficient: This test is used when both variables are continuous and normally distributed. ...
  • Spearman's rank correlation coefficient: This test is used when one or both variables are ordinal or not normally distributed.
Dec 20, 2022

When to use chi-square and when to use ANOVA? ›

A one-way ANOVA analysis is used to compare means of more than two groups, while a chi-square test is used to explore the relationship between two categorical variables.

When to use chi-square test? ›

You can safely use the chi-square test with critical values from the chi-square distribution when no more than 20% of the expected counts are less than 5 and all individual expected counts are 1 or greater. In particular, all four expected counts in a 2 × 2 table should be 5 or greater.

What is the difference between linear regression and t-test ANOVA? ›

If the categorical predictor has only 2 levels such as sex (male, female), then the simple regression analysis is equivalent to an independent t test. If the single categorical variable has more than 2 levels, then the simple linear regression is equivalent to 1-way analysis of variance (ANOVA).

Is t-test equivalent to regression? ›

If the categorical predictor has only 2 levels such as sex (male, female), then the simple regression analysis is equivalent to an independent t test. If the single categorical variable has more than 2 levels, then the simple linear regression is equivalent to 1-way analysis of variance (ANOVA).

What type of statistical analysis is the t-test? ›

A t-test is a statistical test that compares the means of two samples. It is used in hypothesis testing, with a null hypothesis that the difference in group means is zero and an alternate hypothesis that the difference in group means is different from zero.

Is ANOVA a one-way or t-test? ›

The One-way ANOVA is extension of independent samples t test (In independent samples t test used to compare the means between two independent groups, whereas in one-way ANOVA, means are compared among three or more independent groups).

Does linear regression use t-test? ›

T-Test for Regression

If the regression equation has a slope of zero, then every x value will give the same y value and the regression equation would be useless for prediction. We should perform a t-test to see if the slope is significantly different from zero before using the regression equation for prediction.

References

Top Articles
Latest Posts
Article information

Author: Eusebia Nader

Last Updated:

Views: 5793

Rating: 5 / 5 (60 voted)

Reviews: 91% of readers found this page helpful

Author information

Name: Eusebia Nader

Birthday: 1994-11-11

Address: Apt. 721 977 Ebert Meadows, Jereville, GA 73618-6603

Phone: +2316203969400

Job: International Farming Consultant

Hobby: Reading, Photography, Shooting, Singing, Magic, Kayaking, Mushroom hunting

Introduction: My name is Eusebia Nader, I am a encouraging, brainy, lively, nice, famous, healthy, clever person who loves writing and wants to share my knowledge and understanding with you.