Opis zadania, który dotyczył tych danych, można znaleźć na stronie drivendata.org.
Las losowy oznacza i RandomForest
, i ranger
.
tworzenie dodatkowych kolumn na podstawie danych indywidualnych, szczególnie jeśli próbowano uwzględnić takie zmienne, które mogą mieć wpływ na status materialny
wybór zmiennych na podstawie kilku metod a potem połączenie zbiorów wybranych zmiennych w jeden zbiór
sprawdzenie, jakie zmienne są istotne (tzn. co te zmienne oznaczają) np.: Ponownie pojawia się zmienna dotyczace dzielnicy, jak równiez herbaty, chociaz w innej kolejnosci. Druga i trzecia zmienna sa zwiazane z cukrem i ryżem. OGA
Postanowiłem skonstruowac model lasu losowego przy uzyciu danych indywidualnych. Poniewaz celem analizy było nadanie etykiety dla gospodarstwa, a nie dla mieszkanca zdecydowałem, ze dla kazdej z osób wyznacze prawdopodobienstwo nalezenia do klasy poor, a nastepnie usrednie to prawdopodobienstwo dla kazdego z gospodarstw. JBE
Do zbudowania tych komitetów uzyłam klasyfikatorów wytrenowanych wczesniej. […] Miałam zatem do dyspozycji klasyfikator logistyczny, svm, xgboost i rf, kazdy z nich wytrenowany dla danych przefiltrowanych i danych pełnych. UBI
Mając liczbę osób zamieszkujących daną rezydencje utworzono dodatkowe kolumny zawierające wartości liczba pokoi na osobę, oraz liczba telefonów na osobę. GBO
Na koniec dodano kolumny, których wartością była suma zmiennych oznaczających prawdopodobnie (brak dokumentacji) posiadanie lub używanie danego produktu, podzielono je według kategorii […]. GBO
użycie kroswalidacji (albo nawet powtórzonej kroswalidacji) do oceny modelu (można na tej podstawie sprawdzić m.in. stabilność algorytmu patrząc na odchylenie standardowe, zabezpieczamy się też przed potencjalnie niefortunnym podziałem na zbiór treningowy/testowy)
Okazało sie, ze poziomy czynników niektórych zmiennych ze zbioru walidacyjnego i testowego nie odpowiadaja tym ze zbioru treningowego. Zatem ustaliłam ich poziomy na te same, poprzez połaczenie zbiorów wierszowo, a nastepnie wybranie z powrotem odpowiednich wierszy do odpowiednich zbiorów. AlSK
krokowe dodawanie zmiennych (dzięki takiemu podejściu można ocenić, która zmienna wniosła najwięcej) Drugi zbiór powstał z pierwszego zbioru oraz dołączonej kolumny mówiącej o tym, ilu jest dorosłych w wieku pracowniczym (16-65 lat). […] W trzecim zbiorze złączyłam zbiór drugi z nową kolumna […] AnSK
zdecydowanie warto sprawdzać takie rzeczy: Dane były mniej wiecej zbalansowane, jesli chodzi o przynalezność do klas [poor/non.poor] KTO
Po połączeniu danych indywidualnych z danymi na poziomie gospodarstwa zwizualizowałem te dane na płaszczyźnie za pomocą PCA MWI