0.50 - 0.80[1] -0.3
Übungsaufgaben zum Ziehen und Verwenden von Stichproben
Hinweis: Achtung, die Ergebnisse können selbst mit set.seed() etwas variieren!
Ziehen Sie eine Stichprobe mit einer Größe von 10.000 Fällen. Grundlage ist der Globusversuch mit 14 von 20 Wassertreffern. Nehmen Sie an, dass Sie für 10 Hypothesen apriori indifferent sind.
Wie groß ist die Wahrscheinlichkeit, dass der Wasseranteil größer als 50 Prozent ist?
| ABCDEFGHIJ0123456789 |
gitter > 0.5 <lgl> | n <int> | Anteil <dbl> |
|---|---|---|
| FALSE | 930 | 0.093 |
| TRUE | 9070 | 0.907 |
Die Wahrscheilichkeit, dass der Wasseranteil größer als 50 Prozent ist, liegt bei ~ 90 Prozent. Kürzer wäre folgender Code:
Die Funktion mean prüft, wie viele Fälle der Bedinung entsprechen und teilt die Anzahl dieser Fälle durch die Gesamtanzahl aller Fälle. Der Befehl summarise ist notwendig, um diese Information aus dem sample zu extrahieren. Den Namen der Outputspalte “Anteil” kann man auch weglassen.
Wie groß ist die Wahrscheinlichkeit, dass der Wasseranteil zwischen 65 und 75 Prozent liegt?
sample1%>%
filter(gitter > .65)%>%
filter(gitter < .75)%>%
count()%>%
summarise(`Anteil in Prozent` = n / 10000 * 100)| ABCDEFGHIJ0123456789 |
Anteil in Prozent <dbl> |
|---|
| 40.38 |
Die Wahrscheinlichkeit, dass der Wasseranteil zwischen 65 und 75 Prozent ist, liegt bei ~ 40 Prozent. Eleganter:
| ABCDEFGHIJ0123456789 |
Anteil <dbl> |
|---|
| 0.4038 |
Das “&”-Zeichen ist eine Und-Verknüpfung. R errechnet also die Wahrscheinlichkeit für
Welcher ist der mittlere Wasseranteil und wie groß ist die Standardabweichung der Verteilung?
Beantworten Sie Aufgabe 5 ein weiteres Mal, ohne dabei die Funktion quantile() zu verwenden.
| ABCDEFGHIJ0123456789 |
gitter <dbl> | prior <dbl> | likelihood <dbl> | unst_post <dbl> | post <dbl> |
|---|---|---|---|---|
| 0.7 | 1 | 0.191638983 | 0.191638983 | 0.4025555735 |
| 0.7 | 1 | 0.191638983 | 0.191638983 | 0.4025555735 |
| 0.7 | 1 | 0.191638983 | 0.191638983 | 0.4025555735 |
| 0.7 | 1 | 0.191638983 | 0.191638983 | 0.4025555735 |
| 0.7 | 1 | 0.191638983 | 0.191638983 | 0.4025555735 |
| 0.7 | 1 | 0.191638983 | 0.191638983 | 0.4025555735 |
| 0.7 | 1 | 0.191638983 | 0.191638983 | 0.4025555735 |
| 0.7 | 1 | 0.191638983 | 0.191638983 | 0.4025555735 |
| 0.7 | 1 | 0.191638983 | 0.191638983 | 0.4025555735 |
| 0.7 | 1 | 0.191638983 | 0.191638983 | 0.4025555735 |
Wir sehen, der größte Wert der Spalte gitter, nachdem wir 7000 Werte abgeschnitten haben, ist 0.7. Das heißt ein Wasseranteil von 0.7 muss größer sein, als 70 % Prozent der insgesamt 10.000 Werte.
Bilden Sie ein symmetrisches Perzentilinterval, das zeigt, zwischen welchen beiden Parameterwerten sich 80 Prozent der Verteilung befinden.
Geben Sie die Breite des Intervalls mit der höchsten Wahrscheinlichkeitsdichte, das 95 % aller Werte beinhaltet, an.
| ABCDEFGHIJ0123456789 |
Parameter <chr> | CI <dbl> | CI_low <dbl> | CI_high <dbl> |
|---|---|---|---|
| gitter | 0.95 | 0.5 | 0.8 |
Die Breite des HDI ist 0.3.
Hier noch eine andere Variante, die das Ergebnis direkt ausspuckt:
Stichprobe von 10 000 ziehen auf Basis von Gitter mit X von n Treffern
Wie groß ist die Wahrscheinlichkeit, dass der Anteil größer als X% ist?
Mittlerer Anteil und Standardabweichung der möglichen Anteile
Wie groß ist die Wahrscheinlichkeit für einen Anteil zwischen X und Y Prozent?
Welcher Anteil wird mit einer Wahrscheinlichkeit von X% nicht überschritten?
Symmetrisches Perzentilintervall (Equal Tails Interval = eti), dass zeigt, zwischen welchen beiden Parameterwerten sich X% der Verteilung befinden
Breite des Intervalls mit der höchsten Wahrscheinlichkeitsdichte berechnen, das X% aller Werte beinhaltet:
# Breite des Intervalls direkt berechnen
sample1%>%
select(gitter)%>%
hdi(ci = .X) %>% #hdi = high density interval = Intervall mit der höchsten Wahrscheinlichkeitsdichte
mutate(width = CI_high - CI_low) %>% #die obere Grenze des KOnfidenzintervalls von der niedrigeren abziehen, um die Breite zu bekommen
select(width) # nur die Breite anzeigen lassen
# Intervallgrenzen ausgeben lassen (falls nach der Breite gefragt ist, müsste man hier noch die beiden Grenzen voneinander abziehen)
sample1%>%
select(gitter)%>%
hdi(ci = .X)