Регрессия нәрсә ул?
Корреляция ике үзгәрешле бәйле икәнен күрсәтсә, регрессия бу бәйләнешне формулага сала: бер үзгәрешлене белеп, икенчесен алдан әйтергә мөмкин итә.
Иң гади формасы - сызыклы регрессия: мәгълүматка иң яхшы туры килгән туры сызык сызу.
Сызыклы регрессия формуласы
Y = a + bX
- Y - алдан әйтелгән кыйммәт (тәуелле үзгәрешле)
- X - белгеле кыйммәт (тәуелсез үзгәрешле)
- a - кисешү (X = 0 булганда Y кыйммәте)
- b - авышлык (X 1 гә артканда Y ничәгә үзгәрүе)
КФУ тикшеренүе: уку вакыты (X, сәгать/атна) белән имтихан балы (Y) арасындагы бәйләнеш. 50 студент тикшерелгән. Нәтиҗә:
Y = 45 + 3X
Аңлатма: бернинди дә укымаган студент (X=0) якынча 45 балл ала. Һәр өстәмә уку сәгате баллны 3 кә арттыра. Атнага 10 сәгать укыган студент: 45 + 3×10 = 75 балл алачак дип алдан әйтелә.
Иң кечкенә квадратлар ысулы
Регрессия сызыгы - «иң яхшы» сызык. «Яхшы» нәрсәне аңлата? Һәр нокта белән сызык арасындагы аерманың (калдык) квадратлары суммасын иң кечкенә итүче сызык. Бу «иң кечкенә квадратлар ысулы» (OLS).
R² - билгеләнү коэффициенты
R² - модельнең мәгълүматны ничаклы яхшы аңлатуын күрсәтә. 0 дан 1 гә кадәр (яки 0% дан 100% кә кадәр).
- R² = 0: Модель бернәрсә аңлатмый.
- R² = 1: Модель бөтен вариацияне аңлата (тәмам).
- R² = 0.52: Модель вариациянең 52% ын аңлата.
Уку вакыты - имтихан балы модельдә R² = 0.52. Бу аңлата: балл вариациясенең 52% ы уку вакыты белән аңлатыла. Калган 48% - башка факторлар (табигый сәләт, йокы, стресс һ.б.).
Калдыклар (Residuals)
Калдык = Чын Y − Алдан әйтелгән Y. Калдыклар бертигез тарала торган, нормаль бүленешкә якын булырга тиеш. Əгәр алар системалы «мотив» ясаса - модель дөрес түгел.
Студент атнага 8 сәгать укый. Модель: Y = 45 + 3×8 = 69. Чын балл: 75. Калдык: 75 − 69 = +6. Бу студент модельнең алдан әйткәненнән 6 балл яхшырак - бәлки табигый сәләте югары.
Регрессия чикләре
- Корреляция кебек: регрессия сәбәп исбатламый. Уку вакыты белән балл бәйле - ләкин бәлки мотивацияле студентлар күбрәк укыйлар, мотивация баллны арттыра.
- Экстраполяция куркыныч: Атнага 0-15 сәгать укыган студентлар тикшерелгән. 50 сәгат өчен формуланы куллану (45 + 3×50 = 195 балл?!) - мәгънәсез.
- Сызыклылык фаразы: Бәйләнеш сызыклы булмаса, сызыклы регрессия ялгыш нәтиҗәләр бирәчәк.
Татарстан нефть компаниясе: скважинаның тирәнлеге (X) белән нефть чыгару (Y) арасында бәйләнеш тикшерелә. Y = 10 + 0.5X (тонна/көн). R² = 0.68. Тирәнлек 100 м артканда, чыгару 50 тонна арта дип алдан әйтеп була. Ләкин бу бары тикшерелгән диапазонда гына (500-2000 м) дөрес.
Күп үзгәрешлеле регрессия
Реаль тормышта Y бер генә X тан тәуелле булмый. Күп үзгәрешлеле регрессия берничә X белән эшли: Y = a + b₁X₁ + b₂X₂ + ... Мәсәлән, квартира бәясе = f(мәйдан, район, каты, ремонт).
Сызыклы регрессия Y = a + bX - бер үзгәрешле белән икенчесен алдан әйтү формуласы. b - авышлык (X 1 гә артканда Y ничәгә үзгәрүе), R² - модельнең аңлату көче. Регрессия сәбәп исбатламый, экстраполяция куркыныч. Калдыклар бертигез тарала торган булырга тиеш.