Update finalproject

67ad6ed1 · irisqlin · 588bca23 · 67ad6ed1
Commit 67ad6ed1 authored 3 years ago by irisqlin
--- a/finalproject
+++ b/finalproject
@@ -15,16 +15,148 @@ knitr::opts_chunk$set(echo = TRUE)
 library(stringr)
 data <- read.csv("IYSdata.csv")
 names(data)
+
+# predictor data cleaning
 data <- na.omit(data)
 data$X30.5drinks <- as.numeric(str_remove_all(data$X30.5drinks, " days"))
 data$X30.5drinks <- as.numeric(str_remove_all(data$X30.5drinks, " day"))
 data$X30.5drinks <- as.numeric(str_remove_all(data$X30.5drinks, " or more"))
-
 data$X30.5drinks[data$X30.5drinks == "3 to 5"] <- 4
 data$X30.5drinks[data$X30.5drinks == "6 to 9"] <- 7.5
 data$X30.5drinks[data$X30.5drinks == "10 to 19"] <- 14.5
-
 mean(data$X30.5drinks)

+data$X30.cig <- as.numeric(str_remove_all(data$X30.cig, " days"))
+data$X30.cig <- as.numeric(str_remove_all(data$X30.cig, " day"))
+data$X30.cig <- as.numeric(str_remove_all(data$X30.cig, " or more"))
+data$X30.cig[data$X30.cig == "3 to 5"] <- 4
+data$X30.cig[data$X30.cig == "6 to 9"] <- 7.5
+data$X30.cig[data$X30.cig == "10 to 19"] <- 14.5
+mean(data$X30.cig)
+
+data$X30drink <- as.numeric(str_remove_all(data$X30drink, " days"))
+data$X30drink <- as.numeric(str_remove_all(data$X30drink, " day"))
+data$X30drink <- as.numeric(str_remove_all(data$X30drink, " or more"))
+data$X30drink[data$X30drink == "3 to 5"] <- 4
+data$X30drink[data$X30drink == "6 to 9"] <- 7.5
+data$X30drink[data$X30drink == "10 to 19"] <- 14.5
+data <- na.omit(data)
+mean(data$X30drink)
+
+data$X30marijuana <- as.numeric(str_remove_all(data$X30marijuana, " days"))
+data$X30marijuana <- as.numeric(str_remove_all(data$X30marijuana, " day"))
+data$X30marijuana <- as.numeric(str_remove_all(data$X30marijuana, " or more"))
+data$X30marijuana[data$X30marijuana == "3 to 5"] <- 4
+data$X30marijuana[data$X30marijuana == "6 to 9"] <- 7.5
+data$X30marijuana[data$X30marijuana == "10 to 19"] <- 14.5
+data <- na.omit(data)
+mean(data$X30marijuana)
+
+# response data cleaning
+data$times.moved[data$times.moved == "None"] <- 0
+data$times.moved[data$times.moved == "Once"] <- 1
+data$times.moved[data$times.moved == "Twice"] <- 2
+data$times.moved[data$times.moved == "Three times"] <- 3
+data$times.moved[data$times.moved == "Four times or more"] <- 4
+data <- na.omit(data)
+mean(as.numeric(data$times.moved))
+
+data$pride[data$pride == "Strongly agree"] <- 4
+data$pride[data$pride == "Agree"] <- 3
+data$pride[data$pride == "Disagree"] <- 2
+data$pride[data$pride == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$pride))
+
+data$truth[data$truth == "Strongly agree"] <- 4
+data$truth[data$truth == "Agree"] <- 3
+data$truth[data$truth == "Disagree"] <- 2
+data$truth[data$truth == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$truth))
+
+data$responsibility[data$responsibility == "Strongly agree"] <- 4
+data$responsibility[data$responsibility == "Agree"] <- 3
+data$responsibility[data$responsibility == "Disagree"] <- 2
+data$responsibility[data$responsibility == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$responsibility))
+
+data$friends[data$friends == "Strongly agree"] <- 4
+data$friends[data$friends == "Agree"] <- 3
+data$friends[data$friends == "Disagree"] <- 2
+data$friends[data$friends == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$friends))
+
+data$fix.problems[data$fix.problems == "Strongly agree"] <- 4
+data$fix.problems[data$fix.problems == "Agree"] <- 3
+data$fix.problems[data$fix.problems == "Disagree"] <- 2
+data$fix.problems[data$fix.problems == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$fix.problems))
+
+data$decision[data$decision == "Strongly agree"] <- 4
+data$decision[data$decision == "Agree"] <- 3
+data$decision[data$decision == "Disagree"] <- 2
+data$decision[data$decision == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$decision))
+
+data$excite[data$excite == "Strongly agree"] <- 4
+data$excite[data$excite == "Agree"] <- 3
+data$excite[data$excite == "Disagree"] <- 2
+data$excite[data$excite == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$excite))
+
+data$hard.work[data$hard.work == "Strongly agree"] <- 4
+data$hard.work[data$hard.work == "Agree"] <- 3
+data$hard.work[data$hard.work == "Disagree"] <- 2
+data$hard.work[data$hard.work == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$hard.work))
+
+data$safe[data$safe == "Strongly agree"] <- 4
+data$safe[data$safe == "Agree"] <- 3
+data$safe[data$safe == "Disagree"] <- 2
+data$safe[data$safe == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$safe))
+
+data$best.school[data$best.school == "Strongly agree"] <- 4
+data$best.school[data$best.school == "Agree"] <- 3
+data$best.school[data$best.school == "Disagree"] <- 2
+data$best.school[data$best.school == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$best.school))
+
+data$talk.adult[data$talk.adult == "Strongly agree"] <- 4
+data$talk.adult[data$talk.adult == "Agree"] <- 3
+data$talk.adult[data$talk.adult == "Disagree"] <- 2
+data$talk.adult[data$talk.adult == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$talk.adult))
+
+data$grades[data$grades == "Strongly agree"] <- 4
+data$grades[data$grades == "Agree"] <- 3
+data$grades[data$grades == "Disagree"] <- 2
+data$grades[data$grades == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$grades))
+
+data$Wpdrink[data$Wpdrink == "Strongly agree"] <- 4
+data$Wpdrink[data$Wpdrink == "Agree"] <- 3
+data$Wpdrink[data$Wpdrink == "Disagree"] <- 2
+data$Wpdrink[data$Wpdrink == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$Wpdrink))
+
+data$N.safe[data$N.safe == "Strongly agree"] <- 4
+data$N.safe[data$N.safe == "Agree"] <- 3
+data$N.safe[data$N.safe == "Disagree"] <- 2
+data$N.safe[data$N.safe == "Strongly disagree"] <- 1
+data <- na.omit(data)
+mean(as.numeric(data$N.safe))

 ```