Регрессия нигезләре

Катлаулылык: Уртача Уку вакыты: 15 минут

Регрессия нәрсә ул?

Корреляция ике үзгәрешле бәйле икәнен күрсәтсә, регрессия бу бәйләнешне формулага сала: бер үзгәрешлене белеп, икенчесен алдан әйтергә мөмкин итә.

2 4 6 8 10 5 10

Иң гади формасы - сызыклы регрессия: мәгълүматка иң яхшы туры килгән туры сызык сызу.

Сызыклы регрессия формуласы

Y = a + bX

  • Y - алдан әйтелгән кыйммәт (тәуелле үзгәрешле)
  • X - белгеле кыйммәт (тәуелсез үзгәрешле)
  • a - кисешү (X = 0 булганда Y кыйммәте)
  • b - авышлык (X 1 гә артканда Y ничәгә үзгәрүе)
Мисал

КФУ тикшеренүе: уку вакыты (X, сәгать/атна) белән имтихан балы (Y) арасындагы бәйләнеш. 50 студент тикшерелгән. Нәтиҗә:

Y = 45 + 3X

Аңлатма: бернинди дә укымаган студент (X=0) якынча 45 балл ала. Һәр өстәмә уку сәгате баллны 3 кә арттыра. Атнага 10 сәгать укыган студент: 45 + 3×10 = 75 балл алачак дип алдан әйтелә.

Иң кечкенә квадратлар ысулы

Регрессия сызыгы - «иң яхшы» сызык. «Яхшы» нәрсәне аңлата? Һәр нокта белән сызык арасындагы аерманың (калдык) квадратлары суммасын иң кечкенә итүче сызык. Бу «иң кечкенә квадратлар ысулы» (OLS).

-3 -2 -1 0 1 2 3

R² - билгеләнү коэффициенты

- модельнең мәгълүматны ничаклы яхшы аңлатуын күрсәтә. 0 дан 1 гә кадәр (яки 0% дан 100% кә кадәр).

  • R² = 0: Модель бернәрсә аңлатмый.
  • R² = 1: Модель бөтен вариацияне аңлата (тәмам).
  • R² = 0.52: Модель вариациянең 52% ын аңлата.
Мисал

Уку вакыты - имтихан балы модельдә R² = 0.52. Бу аңлата: балл вариациясенең 52% ы уку вакыты белән аңлатыла. Калган 48% - башка факторлар (табигый сәләт, йокы, стресс һ.б.).

Калдыклар (Residuals)

Калдык = Чын Y − Алдан әйтелгән Y. Калдыклар бертигез тарала торган, нормаль бүленешкә якын булырга тиеш. Əгәр алар системалы «мотив» ясаса - модель дөрес түгел.

2 4 6 8 10 2 4 6 8 10
Мисал

Студент атнага 8 сәгать укый. Модель: Y = 45 + 3×8 = 69. Чын балл: 75. Калдык: 75 − 69 = +6. Бу студент модельнең алдан әйткәненнән 6 балл яхшырак - бәлки табигый сәләте югары.

Регрессия чикләре

  • Корреляция кебек: регрессия сәбәп исбатламый. Уку вакыты белән балл бәйле - ләкин бәлки мотивацияле студентлар күбрәк укыйлар, мотивация баллны арттыра.
  • Экстраполяция куркыныч: Атнага 0-15 сәгать укыган студентлар тикшерелгән. 50 сәгат өчен формуланы куллану (45 + 3×50 = 195 балл?!) - мәгънәсез.
  • Сызыклылык фаразы: Бәйләнеш сызыклы булмаса, сызыклы регрессия ялгыш нәтиҗәләр бирәчәк.
Мисал

Татарстан нефть компаниясе: скважинаның тирәнлеге (X) белән нефть чыгару (Y) арасында бәйләнеш тикшерелә. Y = 10 + 0.5X (тонна/көн). R² = 0.68. Тирәнлек 100 м артканда, чыгару 50 тонна арта дип алдан әйтеп була. Ләкин бу бары тикшерелгән диапазонда гына (500-2000 м) дөрес.

Күп үзгәрешлеле регрессия

Реаль тормышта Y бер генә X тан тәуелле булмый. Күп үзгәрешлеле регрессия берничә X белән эшли: Y = a + b₁X₁ + b₂X₂ + ... Мәсәлән, квартира бәясе = f(мәйдан, район, каты, ремонт).

Төп нәтиҗә

Сызыклы регрессия Y = a + bX - бер үзгәрешле белән икенчесен алдан әйтү формуласы. b - авышлык (X 1 гә артканда Y ничәгә үзгәрүе), R² - модельнең аңлату көче. Регрессия сәбәп исбатламый, экстраполяция куркыныч. Калдыклар бертигез тарала торган булырга тиеш.