Машинное обучение курс лекций к в воронцов
нБЫЙООПЕ ПВХЮЕОЙЕ Й БОБМЙЪ ДБООЩИ
чОЙНБОЙЕ! ьФБ УФТБОЙГБ ПВОПЧМСФШУС ВПМШЫЕ ОЕ ВХДЕФ. фЕРЕТШ ПВОПЧМЕОЙС ЛХТУБ ВХДХФ ЧЩЛМБДЩЧБФШУС ОБ MachineLearning.ru
ч ЛХТУЕ ТБУУНБФТЙЧБАФУС ТБЪМЙЮОЩЕ ЪБДБЮЙ НБЫЙООПЗП ПВХЮЕОЙС (machine learning), Ч ФПН ЮЙУМЕ ЪБДБЮЙ ЛМБУУЙЖЙЛБГЙЙ, ЛМБУФЕТЙЪБГЙЙ, ТЕЗТЕУУЙЙ Й РТПЗОПЪЙТПЧБОЙС. йЪХЮБАФУС ТБЪМЙЮОЩЕ НЕФПДЩ ТЕЫЕОЙС ЬФЙИ ЪБДБЮ.
ъБДБЮБ ПВХЮЕОЙС РП РТЕГЕДЕОФБН
йНЕЕФУС НОПЦЕУФЧП ПВЯЕЛФПЧ, ЛБЦДПНХ ЙЪ ЛПФПТЩИ РПУФБЧМЕО Ч УППФЧЕФУФЧЙЕ ОЕЛПФПТЩК ПФЧЕФ. ьФП УППФЧЕФУФЧЙЕ ЙЪЧЕУФОП ФПМШЛП ОБ ЛПОЕЮОПК ЧЩВПТЛЕ РТЕГЕДЕОФПЧ — РБТ ЧЙДБ «ПВЯЕЛФ–ПФЧЕФ». рП ЬФЙН ДБООЩН ОЕПВИПДЙНП ЧПУУФБОПЧЙФШ ЪБЧЙУЙНПУФШ, ФП ЕУФШ РПУФТПЙФШ БМЗПТЙФН, ЛПФПТЩК ДМС МАВПЗП ПВЯЕЛФБ ЧЩДБЧБМ ВЩ ОЕЛПФПТЩК ПФЧЕФ, Й РТЙ ЬФПН ПЫЙВБМУС ВЩ ЛБЛ НПЦОП ТЕЦЕ.
рТЙНЕТЩ
ч ЪБДБЮБИ НЕДЙГЙОУЛПК ДЙБЗОПУФЙЛЙ ПВЯЕЛФБНЙ СЧМСАФУС РБГЙЕОФЩ, ПФЧЕФБНЙ — ДЙБЗОПЪЩ ЙМЙ ТЕЫЕОЙС П ГЕМЕУППВТБЪОПУФЙ ФПЗП ЙМЙ ЙОПЗП ЧЙДБ МЕЮЕОЙС.
ч ЪБДБЮБИ ЛТЕДЙФОПЗП УЛПТЙОЗБ (credit scoring) ПВЯЕЛФБНЙ СЧМСАФУС ЪБЕНЭЙЛЙ (ФПЮОЕЕ, БОЛЕФЩ, ЪБРПМОЕООЩЕ РТЙ РПДБЮЕ ЪБСЧЛЙ ОБ ЧЩДБЮХ ЛТЕДЙФБ), ПФЧЕФБНЙ — ТЕЫЕОЙС ЧЩДБФШ ЙМЙ ОЕ ЧЩДБФШ ЛТЕДЙФ.
ч ЪБДБЮБИ РТЕДУЛБЪБОЙС ХИПДБ ЛМЙЕОФПЧ (churn prediction) ПВЯЕЛФБНЙ СЧМСАФУС РТПФПЛПМЩ ЧУЕИ ДЕКУФЧЙК (РМБФЕЦЕК, ФТБОЪБЛГЙК, УНЕО ФБТЙЖОПЗП РМБОБ, Й Ф.Д.) ЛМЙЕОФБ, ПФЧЕФБНЙ — ПГЕОЛЙ ЧЕТПСФОПУФЙ ФПЗП, ЮФП ЛМЙЕОФ ПФЛБЦЕФУС ПФ ХУМХЗ ЛПНРБОЙЙ Ч ФЕЮЕОЙЕ ВМЙЦБКЫЕЗП ЧТЕНЕОЙ (ОБРТЙНЕТ, НЕУСГБ).
ч ЪБДБЮБИ РТПЗОПЪЙТПЧБОЙС РТПДБЦ (sales forecast) ПВЯЕЛФБНЙ СЧМСАФУС ЧТЕНЕООЩЕ ТСДЩ ПВЯЕНПЧ РТПДБЦ ФПЧБТПЧ Ч НБЗБЪЙОБИ; ПФЧЕФБНЙ — РТПЗОПЪЩ ПВЯЕНПЧ РПФТЕВЙФЕМШУЛПЗП УРТПУБ.
нПЦОП РТЙЧПДЙФШ ЕЭЕ ДЕУСФЛЙ Й УПФОЙ РТЙНЕТПЧ РТЙМПЦЕОЙК, Ч ЛПФПТЩИ ПВХЮЕОЙЕ РП РТЕГЕДЕОФБН РПЪЧПМСЕФ БЧФПНБФЙЪЙТПЧБФШ ТЕЫЕОЙЕ ДПУФБФПЮОП УМПЦОЩИ РТПЖЕУУЙПОБМШОЩИ РТПВМЕН. уНПФТЙФЕ ЧЧПДОХА МЕЛГЙА.
рЕТЧЩК УЕНЕУФТ:
чФПТПК УЕНЕУФТ:
лХТУ ОБИПДЙФУС Ч УФБДЙЙ ТБЪТБВПФЛЙ. рПЦБМХКУФБ, ОЕ УФЕУОСКФЕУШ УППВЭБФШ П ОБКДЕООЩИ ПЫЙВЛБИ, ЧЩУЛБЪЩЧБФШ ЪБНЕЮБОЙС Й РТЕДМПЦЕОЙС.
дТХЗЙЕ ЛХТУЩ РП НБЫЙООПНХ ПВХЮЕОЙА Й УНЕЦОЩН ФЕНБН
нЕУФЕГЛЙК м. н. нБФЕНБФЙЮЕУЛЙЕ НЕФПДЩ ТБУРПЪОБЧБОЙС ПВТБЪПЧ. чнЙл нзх, ЛБЖЕДТБ ннр — 2002.
www.ccas.ru/frc/papers/mestetskii04course.pdf.
нЕТЛПЧ б. в. пУОПЧОЩЕ НЕФПДЩ, РТЙНЕОСЕНЩЕ ДМС ТБУРПЪОБЧБОЙС ТХЛПРЙУОПЗП ФЕЛУФБ. мБВПТБФПТЙС ТБУРПЪОБЧБОЙС ПВТБЪПЧ нгонп. — 2004.
http://www.recognition.mccme.ru/pub/RecognitionLab.html/methods.html.
мЙЖЫЙГ а. уПЧТЕНЕООЩЕ ЪБДБЮЙ ФЕПТЕФЙЮЕУЛПК ЙОЖПТНБФЙЛЙ. йфнп. — 2005.
http://teormin.ifmo.ru/education/modern.
оЕЛПФПТЩЕ ОБРТБЧМЕОЙС ОБХЮОЩИ ЙУУМЕДПЧБОЙК
чОЙНБОЙЕ! вПМЕЕ УЧЕЦБС ЧЕТУЙС ЬФПЗП ФЕЛУФБ ОБИПДЙФУС ЪДЕУШ: MachineLearning.ru
рТПВМЕНБ ПВПВЭБАЭЕК УРПУПВОПУФЙ СЧМСЕФУС ЛМАЮЕЧПК Й Ч ФП ЦЕ ЧТЕНС ОБЙВПМЕЕ УМПЦОПК Ч НБЫЙООПН ПВХЮЕОЙЙ. еУМЙ БМЗПТЙФН ПВХЮЕО РП ЛПОЕЮОПК ЧЩВПТЛЕ РТЕГЕДЕОФПЧ, ФП ЛБЛ РТЕДУЛБЪБФШ ЛБЮЕУФЧП ЕЗП ТБВПФЩ ОБ ОПЧЩИ ПВЯЕЛФБИ? рПЮЕНХ ЬФП ЧППВЭЕ ЧПЪНПЦОП? лБЛ ОБДП ПВХЮБФШ БМЗПТЙФН, ЮФПВЩ ПО ТЕДЛП ПЫЙВБМУС ОБ ОПЧЩИ ДБООЩИ?
бЛФЙЧОПЕ ЙУУМЕДПЧБОЙЕ ЬФЙИ ЧПРТПУПЧ ОБЮБМПУШ Ч ЛПОГЕ 60-И, ЛПЗДБ ч.о.чБРОЙЛ Й б.с.юЕТЧПОЕОЛЙУ РТЕДМПЦЙМЙ УФБФЙУФЙЮЕУЛХА ФЕПТЙА ЧПУУФБОПЧМЕОЙС ЪБЧЙУЙНПУФЕК РП ЬНРЙТЙЮЕУЛЙН ДБООЩН. пОЙ РПМХЮЙМЙ ЧЕТИОЙЕ ПГЕОЛЙ ЧЕТПСФОПУФЙ ПЫЙВПЛ ПВХЮЕООПЗП БМЗПТЙФНБ, РПЪЧПМЙЧЫЙЕ ПВПУОПЧБФШ ДБЧОП ЪБНЕЮЕООЩК ЬНРЙТЙЮЕУЛЙК ЖБЛФ: РП НЕТЕ ХЧЕМЙЮЕОЙС УМПЦОПУФЙ ЙУРПМШЪХЕНПЗП УЕНЕКУФЧБ БМЗПТЙФНПЧ ЛБЮЕУФЧП ПВХЮЕОЙС УОБЮБМБ ХМХЮЫБЕФУС, ЪБФЕН ОБЮЙОБЕФ ХИХДЫБФШУС. хИХДЫЕОЙЕ УЧСЪБОП У ЬЖЖЕЛФПН РЕТЕПВХЮЕОЙС: ЮТЕЪНЕТОП УМПЦОЩЕ БМЗПТЙФНЩ ЙНЕАФ ЙЪВЩФПЮОПЕ ЮЙУМП УЧПВПДОЩИ РБТБНЕФТПЧ; РТЙ ПВХЮЕОЙЙ ЬФЙИ РБТБНЕФТПЧ РП ЧЩВПТЛЕ БМЗПТЙФН ОБУФТБЙЧБЕФУС ОЕ ФПМШЛП ОБ ЧПУУФБОПЧМЕОЙЕ ЪБЧЙУЙНПУФЙ, ОП Й ОБ ЧПУРТПЙЪЧЕДЕОЙЕ ТБЪОПЗП ТПДБ РПЗТЕЫОПУФЕК. рПЗТЕЫОПУФЙ Ч ТЕБМШОЩИ ЪБДБЮБИ ЧУЕЗДБ РТЙУХФУФЧХАФ: ЧП-РЕТЧЩИ, ЬФП ПЫЙВЛЙ ЙЪНЕТЕОЙС (ЫХН), ЧП-ЧФПТЩИ, ЮФП ЗПТБЪДП УХЭЕУФЧЕООЕЕ, ЬФП ОЕЧСЪЛБ НЕЦДХ ЙУРПМШЪХЕНПК НПДЕМША Й ОЕЙЪЧЕУФОПК ЙУФЙООПК ЪБЧЙУЙНПУФША. ч ФЕПТЙЙ чБРОЙЛБ-юЕТЧПОЕОЛЙУБ ТБЪТБВПФБО НЕФПД УФТХЛФХТОПК НЙОЙНЙЪБГЙЙ ТЙУЛБ (унт), РПЪЧПМСАЭЙК БЧФПНБФЙЮЕУЛЙ ОБИПДЙФШ НПДЕМШ ПРФЙНБМШОПК УМПЦОПУФЙ.
л УПЦБМЕОЙА, УФБФЙУФЙЮЕУЛЙЕ ПГЕОЛЙ ЮТЕЪЧЩЮБКОП УЙМШОП ЪБЧЩЫЕОЩ. ч НЕФПДЕ унт ЬФП ЮБУФП ЧМЕЮЕФ РЕТЕХРТПЭЕОЙЕ НПДЕМЙ. оЕУНПФТС ОБ 40-МЕФОЙЕ ХУЙМЙС НОПЗЙИ ХЮЕОЩИ, ФПЮОЩЕ ПГЕОЛЙ ЛБЮЕУФЧБ ПВХЮЕОЙС ДП УЙИ РПТ ОЕ РПМХЮЕОЩ.
пУОПЧОЩЕ ОБРТБЧМЕОЙС ЙУУМЕДПЧБОЙК:
— ЛПНВЙОБФПТОБС ФЕПТЙС ПВПВЭБАЭЕК УРПУПВОПУФЙ;
— ХФПЮОЕОЙЕ ПГЕОПЛ ПВПВЭБАЭЕК УРПУПВОПУФЙ ДМС ТБЪМЙЮОЩИ ЮБУФОЩИ УМХЮБЕЧ;
— ТБЪТБВПФЛБ ОПЧЩИ БМЗПТЙФНПЧ ПВХЮЕОЙС ОБ ЙИ ПУОПЧЕ.
лМАЮЕЧЩЕ УМПЧБ:
generalization ability, computational learning theory, Vapnik-Chervonenkis theory.
лПНВЙОБФПТОБС УФБФЙУФЙЛБ. ьФП ОБРТБЧМЕОЙЕ МПЗЙЮОП ЧЩФЕЛБЕФ ЙЪ РТЕДЩДХЭЕЗП Й СЧМСЕФУС ЕЗП ПВПВЭЕОЙЕН. пЛБЪЩЧБЕФУС, НОПЗЙЕ ЖХОДБНЕОФБМШОЩЕ ЖБЛФЩ ФЕПТЙЙ ЧЕТПСФОПУФЕК Й НБФЕНБФЙЮЕУЛПК УФБФЙУФЙЛЙ НПЦОП РЕТЕЖПТНХМЙТПЧБФШ Й ДПЛБЪБФШ, ОЕ ПРЙТБСУШ ОБ ЛПМНПЗПТПЧУЛХА БЛУЙПНБФЙЛХ, ФП ЕУФШ ОЕ ЙУРПМШЪХС ФЕПТЙА НЕТЩ, Й ДБЦЕ ОЕ ХРПФТЕВМСС УБНП РПОСФЙЕ ЧЕТПСФОПУФЙ. ч ЪБДБЮБИ БОБМЙЪБ ДБООЩИ НЩ ЧУЕЗДБ ЙНЕЕН ДЕМП У ЧЩВПТЛБНЙ ЛПОЕЮОПК ДМЙОЩ. рПЬФПНХ ЕУФЕУФЧЕООП УФБЧЙФШ ЧПРТПУ ОЕ «ЛБЛПЧБ ЧЕТПСФОПУФШ УПВЩФЙС?», Б «ЛБЛПК НПЦЕФ ВЩФШ ЮБУФПФБ ЬФПЗП УПВЩФЙС ОБ УЛТЩФЩИ (РПЛБ ЕЭЕ ОЕ ЙЪЧЕУФОЩИ) ДБООЩИ?». пФЧЕФЩ ОБ ЬФЙ ДЧБ ЧПРТПУБ, ЧППВЭЕ ЗПЧПТС, ТБЪМЙЮОЩ, РТЙЮЕН ОБ ЧЩВПТЛБИ НБМПК ДМЙОЩ ТБЪМЙЮЙЕ УХЭЕУФЧЕООП. чЕТПСФОПУФШ УПВЩФЙС — БВУФТБЛФОБС ЙДЕБМЙЪЙТПЧБООБС ЧЕМЙЮЙОБ. юБУФПФБ УПВЩФЙС — ЬФП ЛБЛ ТБЪ ФП, ЮФП ТЕБМШОП ЙЪНЕТСЕФУС Ч ЬЛУРЕТЙНЕОФЕ. йНЕООП ЕЕ Й ЙНЕЕФ УНЩУМ РТЕДУЛБЪЩЧБФШ.
ч ЮБУФПФОПК РПУФБОПЧЛЕ ХДБЕФУС РЕТЕЖПТНХМЙТПЧБФШ ЪБЛПО ВПМШЫЙИ ЮЙУЕМ, ЪБЛПО УИПДЙНПУФЙ ЬНРЙТЙЮЕУЛЙИ ТБУРТЕДЕМЕОЙК (ЛТЙФЕТЙК уНЙТОПЧБ), НОПЗЙЕ УФБФЙЮЕУЛЙЕ ЛТЙФЕТЙЙ, Ч РЕТЧХА ПЮЕТЕДШ, ТБОЗПЧЩЕ ЛТЙФЕТЙЙ, ФЕПТЙА ПВПВЭБАЭЕК УРПУПВОПУФЙ, ФЕПТЙА ЙОЖПТНБГЙЙ. чП НОПЗЙИ УМХЮБСИ РПМХЮБЕНЩЕ ПГЕОЛЙ СЧМСАФУС ФПЮОЩНЙ, Ф.Е. ОЕ БУЙНРФПФЙЮЕУЛЙНЙ Й ОЕ ЪБЧЩЫЕООЩНЙ. пДОБЛП ДМС ЙИ ЧЩЮЙУМЕОЙС НПЦЕФ РПФТЕВПЧБФШУС ТБЪТБВПФЛБ УРЕГЙБМШОЩИ ЬЖЖЕЛФЙЧОЩИ БМЗПТЙФНПЧ.
пУОПЧОЩЕ ОБРТБЧМЕОЙС ЙУУМЕДПЧБОЙК:
— ЧЩСУОЕОЙЕ ЗТБОЙГ РТЙНЕОЙНПУФЙ УМБВПК ЧЕТПСФОПУФОПК БЛУЙПНБФЙЛЙ;
— ФПЮОЩЕ (ЛПНВЙОБФПТОЩЕ) УФБФЙУФЙЮЕУЛЙЕ ЛТЙФЕТЙЙ;
— ЬЖЖЕЛФЙЧОЩЕ БМЗПТЙФНЩ ЧЩЮЙУМЕОЙС ЛПНВЙОБФПТОЩИ ПГЕОПЛ.
нЕФПДЩ ПВХЮЕОЙС БМЗПТЙФНЙЮЕУЛЙИ ЛПНРПЪЙГЙК РТЙНЕОСАФУС Ч УМПЦОЩИ ЪБДБЮБИ, ЛПЗДБ ЙНЕАЭЙЕУС (ВБЪПЧЩЕ) БМЗПТЙФНЩ ОЕ ДБАФ ЦЕМБЕНПЗП ЛБЮЕУФЧБ ПВХЮЕОЙС. ч ФБЛЙИ УМХЮБСИ УФТПСФ ЛПНРПЪЙГЙЙ БМЗПТЙФНПЧ, УФБТБСУШ, ЮФПВЩ ПЫЙВЛЙ ТБЪМЙЮОЩИ БМЗПТЙФНПЧ УЛПНРЕОУЙТПЧБМЙ ДТХЗ ДТХЗБ.
уБНЩК РТПУФПК РТЙНЕТ ЛПНРПЪЙГЙЙ — ХУТЕДОЕОЙЕ ПФЧЕФПЧ, ЧЩДБЧБЕНЩИ ВБЪПЧЩНЙ БМЗПТЙФНБНЙ. нПЦОП ХУТЕДОСФШ У ЧЕУБНЙ. нПЦОП ЧЩДЕМСФШ ПВМБУФЙ ЛПНРЕФЕОФОПУФЙ ТБЪМЙЮОЩИ БМЗПТЙФНПЧ, Й Ч ЛБЦДПК ПВМБУФЙ ЙУРПМШЪПЧБФШ УЧПЕ ТБУРТЕДЕМЕОЙЕ ЧЕУПЧ. нПЦОП УФТПЙФШ ЛПНРПЪЙГЙЙ БМЗПТЙФНПЧ У РПНПЭША ОЕМЙОЕКОЩИ ПРЕТБГЙК. лБЛПК ЙЪ ЬФЙИ НЕФПДПЧ МХЮЫЕ? ч ЛБЛЙИ ЪБДБЮБИ? лБЛ ПВХЮБФШ ВБЪПЧЩЕ БМЗПТЙФНЩ, ХЮЙФЩЧБС, ЮФП ПОЙ ВХДХФ ТБВПФБФШ ОЕ РП-ПФДЕМШОПУФЙ, Б Ч УПУФБЧЕ ЛПНРПЪЙГЙЙ? нПЦОП МЙ РТЙУРПУПВЙФШ ДМС ЬФПЗП УФБОДБТФОЩЕ НЕФПДЩ ПВХЮЕОЙС? лБЛ ПГЕОЙЧБФШ Й ГЕМЕОБРТБЧМЕООП ХМХЮЫБФШ ПВПВЭБАЭХА УРПУПВОПУФШ ЛПНРПЪЙГЙЙ? лБЛ РТЙ ЬФПН УДЕМБФШ ЮЙУМП БМЗПТЙФНПЧ Ч ЛПНРПЪЙГЙЙ РПНЕОШЫЕ?
йДЕС БМЗПТЙФНЙЮЕУЛЙИ ЛПНРПЪЙГЙК ВЩМБ ЧЩДЧЙОХФБ Ч УЕТЕДЙОЕ 70-И ЗПДПЧ Ч ТБВПФБИ БЛБДЕНЙЛБ тбо а.й.цХТБЧМЕЧБ. ч ЪБТХВЕЦОЩИ ЙУУМЕДПЧБОЙСИ ЬФП ФЕНБ УФБМБ ЮТЕЪЧЩЮБКОП РПРХМСТОПК Ч 90-Е ЗПДЩ, РПУМЕ ЙЪПВТЕФЕОЙС БМЗПТЙФНПЧ ВХУФЙОЗБ, УНЕУЕК ЬЛУРЕТФПЧ Й ДТХЗЙИ ЛПНРПЪЙФОЩИ ЛПОУФТХЛГЙК.
пУОПЧОЩЕ ОБРТБЧМЕОЙС ЙУУМЕДПЧБОЙК:
— ТБЪТБВПФЛБ ЬЖЖЕЛФЙЧОЩИ БМЗПТЙФНПЧ РПУФТПЕОЙС ЛПНРПЪЙГЙК;
— РПЧЩЫЕОЙЕ ПВПВЭБАЭЕК УРПУПВОПУФЙ ЛПНРПЪЙГЙК;
— УТБЧОЙФЕМШОЩК БОБМЙЪ ТБЪМЙЮОЩИ НЕФПДПЧ РПУФТПЕОЙС ЛПНРПЪЙГЙК.
лМАЮЕЧЩЕ УМПЧБ:
multiple classifier systems, ensemble learning, classifier fusion, mixture of experts.
бОБМЙЪ ЛМЙЕОФУЛЙИ УТЕД (блу) СЧМСЕФУС ПФОПУЙФЕМШОП ОПЧПК Й ВЩУФТП ТБЪЧЙЧБАЭЕКУС ПВМБУФША ЙОФЕММЕЛФХБМШОПЗП БОБМЙЪБ ДБООЩИ (data mining). ч УПЧТЕНЕООПН ВЙЪОЕУЕ ЮТЕЪЧЩЮБКОП ЧПУФТЕВПЧБОП ТЕЫЕОЙЕ УМЕДХАЭЕК ЪБДБЮЙ, ФПЮОЕЕ ДБЦЕ ЗТХРРЩ ЪБДБЮ.
йНЕЕФУС ОЕЛПФПТЩК ОБВПТ ТЕУХТУПЧ (ФПЧБТПЧ, ХУМХЗ, РТЕДНЕФПЧ) ЛПФПТЩНЙ РПМШЪХЕФУС ПЗТПНОПЕ ЛПМЙЮЕУФЧП ЛМЙЕОФПЧ. чУЕ ДЕКУФЧЙС РПМШЪПЧБФЕМЕК РТПФПЛПМЙТХАФУС Ч ЬМЕЛФТПООПН ЧЙДЕ. ьФЙ ДБООЩЕ УПДЕТЦБФ ГЕООЕКЫХА ЙОЖПТНБГЙА, ОЕПВИПДЙНХА ДМС РПЧЩЫЕОЙС ЛБЮЕУФЧБ ПЛБЪЩЧБЕНЩИ ХУМХЗ, ПДОБЛП ЙЪЧМЕЮШ ЕЕ ОЕ ФБЛ РТПУФП ЧЧЙДХ ПЗТПНОПЗП ПВЯЕНБ ДБООЩИ. лБЛЙЕ ТЕУХТУЩ ОБЙВПМЕЕ РПРХМСТОЩ, Й УТЕДЙ ЛБЛЙИ ЗТХРР ЛМЙЕОФПЧ? чПЪНПЦОП МЙ ХЗБДБФШ ЙОФЕТЕУЩ ЛМЙЕОФБ Й УЖПТНЙТПЧБФШ ДМС ОЕЗП РЕТУПОБМШОПЕ РТЕДМПЦЕОЙЕ, ПФ ЛПФПТПЗП ПО У ЧЩУПЛПК ЧЕТПСФОПУФША ОЕ ПФЛБЦЕФУС? лБЛ ЧЩСЧЙФШ ЛМЙЕОФПЧ, УПВЙТБАЭЙИУС Ч ВМЙЦБКЫЕЕ ЧТЕНС ПФЛБЪБФШУС ПФ ПВУМХЦЙЧБОЙС? ьФЙ Й ДТХЗЙЕ ЪБДБЮЙ ТЕЫБАФУС Ч УЙУФЕНБИ ХРТБЧМЕОЙС ЧЪБЙНППФОПЫЕОЙСНЙ У ЛМЙЕОФБНЙ (client relationship management, CRM). уПЪДБОЙЕ НБФЕНБФЙЮЕУЛПЗП ПВЕУРЕЮЕОЙС ДМС ОЙИ СЧМСЕФУС БЛФХБМШОПК, ОБХЛПЕНЛПК ЪБДБЮЕК.
пДЙО ЙЪ ФЙРЙЮОЩИ РТЙНЕТПЧ ЛМЙЕОФУЛПК УТЕДЩ — ЙОФЕТОЕФ-РПТФБМ, РТЕДПУФБЧМСАЭЙК ДПУФХР Л ВПМШЫПНХ ЛПМЙЮЕУФЧХ ТЕУХТУПЧ, УЛБЦЕН, ЙОФЕТОЕФ-НБЗБЪЙО ЙМЙ РПЙУЛПЧЩК УЕТЧЕТ. фЕИОПМПЗЙС блу РПЪЧПМСЕФ ТЕЫБФШ ЪБДБЮЙ РЕТУПОБМЙЪБГЙЙ ЛПОФЕОФБ — ЛПЗДБ ТЕЪХМШФБФЩ РПЙУЛБ, ЙОЖПТНБГЙПООЩЕ ЛБФБМПЗЙ, РТЕДМПЦЕОЙС ФПЧБТПЧ Й ХУМХЗ, Й Ф.Д. ЧЩУФТБЙЧБАФУС Ч ФБЛПН РПТСДЛЕ, ЮФПВЩ РПМШЪПЧБФЕМШ ВЕЪ ФТХДБ ОБИПДЙМ ЙОЖПТНБГЙА, ОЕПВИПДЙНХА ЙНЕООП ЕНХ, ЙНЕООП Ч ДБООЩК НПНЕОФ.
пУОПЧОЩЕ ОБРТБЧМЕОЙС ЙУУМЕДПЧБОЙК:
— ЛПММБВПТБФЙЧОБС ЖЙМШФТБГЙС;
— ТБЪТБВПФЛБ ЬЖЖЕЛФЙЧОЩИ БМЗПТЙФНПЧ блу;
— ТЕЫЕОЙЕ ЪБДБЮ РЕТУПОБМЙЪБГЙЙ ЛПОФЕОФБ;
— Й ДТХЗЙИ РТЙЛМБДОЩИ ЪБДБЮ.
лМАЮЕЧЩЕ УМПЧБ:
collaborative filtering, web usage mining, personalization, client relationship management.
Лучшие Курсы по машинному обучению и нейронным сетям. Платные + бесплатные, актуально на 2020
В нашей статье мы рассмотрим самые лучшие курсы по машинному обучению и нейронным сетям в 2020 году. Всем, кто хочет знать, как работают такие популярные системы как Гугл и Яндекс, как сотрудники крупных IT –компаний обучают системы и с чего вообще начать путь в области машинного обучения и нейронным сетям, стопроцентно будет полезно почитать обзор специально подобранных курсов.
В данной статье подскажем, как выбирать курс для себя, нужен ли сертификат или нет, а также в каком курсе интереснее всего практические задачи для вас.
Короче говоря, алгоритмы машинного обучения – это алгоритмы, которые изучают (часто прогнозирующие) модели на основе данных. Т.е. вместо формулирования «правил» вручную алгоритм машинного обучения обучит модель за вас.
Итак, позвольте мне привести вам пример, чтобы проиллюстрировать, что это значит! Скажем, вы заинтересованы в реализации спам-фильтра. Вероятно, наиболее консервативный подход – позволить человеку сортировать эти письма вручную. Теперь, «традиционный» подход к программированию будет состоять в том, чтобы посмотреть на некоторые примеры электронных писем (и/или использовать ваши «знания предметной области»), чтобы придумать цепочку правил, таких как «Если это письмо содержит слово X, пометьте его как спам, иначе, если письмо содержит…» .
Теперь алгоритмы машинного обучения помогут вам сформулировать эти правила. Или, другими словами, (контролируемые) алгоритмы машинного обучения будут смотреть на набор данных с помеченными электронными письмами (спам и не спам) и выводить оттуда правила для разделения двух классов.
И, прежде, чем приступать к выбору определенной дисциплины, посмотрите на содержание курса и объем требуемых усилий. Определитесь, какая цель обучения наиболее важна для вас.
Например, если вам интересны методы машинного обучения, то у вас должны иметься определенные знания. В частности, нужно разбираться в таких предметах, как алгебра, матанализ. А также в методах оптимизации.
Также стоит освежить в памяти навыки программирования. В идеале человек, поступивший на курс по машинному обучению, также должен разбираться в: R, Python, Matlab.
Одним из наиболее известных и популярных курсов по машинному обучению является разработка от Яндекс и МФТИ. С него и начнем наш обзор.
Курс по машинному обучению и анализу данных от Яндекса и МФТИ
💵 Стоимость курса: стоимость курса составляет 5396 рублей. Есть возможность бесплатного обучения, достаточно запросить финансовую помощь. По окончании данного курса обязательно выдается сертификат установленного образца.
Особенность курса, его уникальность
Главной его особенностью является исключительная практическая направленность, причём обширный багаж математических знаний в данном курсе абсолютно не обязателен.
Мотивировать его изучение можно следующим образом: посмотрите учебный план. Если вы просмотрите все лекции и решите все задания, то вы гарантированно сможете применять все эти вещи на практике. В частности, вы освоите следующие навыки:
- Анализ данных и машинное обучение. Они базируются на знание математического анализа, линейной алгебры, а также методов оптимизации, теории вероятностей.
- Слушатели курса научатся пользоваться современными аналитическими инструментами и адаптировать их под особенности конкретных задач.
Есть несколько направлений данного курса:
- Математика и Python для анализа данных
- Обучение на размеченных данных
- Поиск структуры в данных
- Построение выводов по данным
Для кого этот курс?
Приглашаем продвинутых в математике студентов и профессионалов! Всех желающих на практике освоить базовые алгоритмы машинного обучения.
Курс рассчитан на слушателей, которые делают первые шаги в области машинного обучения.
Что нужно, чтобы приступить к курсу?
- Иметь базовые знания в области математической статистики;
- Быть готовым программировать на Python.
Машинное обучение (курс лекций, К.В.Воронцов)
💵 Стоимость курса: курс является бесплатным и читается студентам старших курсов технических вузов в течение двух семестров.
Особенность курса
Данный курс посвящен теории и методике обучения машин. Машинное обучение формировалось последние сорок лет, в наше время появились новые направления внутри этой дисциплины. Одна из наиболее перспективных – интеллектуальный анализ данных.
Особенность курса заключается в том, что все лекции направлены на более глубокое понимание основ высшей математики и методов машинного обучения.
Знания и навыки, необходимые для понимания курса
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации и какого-либо языка программирования желательно, но не обязательно.
Структура курса:
курс разбит на лекции, которые читаются в течение двух семестров. Для желающих самостоятельно изучить такую дисциплину как машинное обучение будут полезны видеолекции от ШАД Яндекс, которые дополняют данный учебный курс.
Natural Language Processing (NLP):
💵 Стоимость курса: условно бесплатный. Курс можно и не оплачивать, но, чтобы стать обладателем сертификата, надо заплатить сто долларов.
В чем особенность курса?
Обработка естественного языка (НЛП) – одна из важнейших технологий информационного века. Понимание сложных языковых высказываний также является важной частью искусственного интеллекта.
В этом курсе вам будет дан подробный обзор обработки естественного языка и как использовать классические методы машинного обучения.
Вы узнаете о статистическом машинном переводе, а также о моделях глубокого семантического подобия (DSSM) и их приложениях. будете понимать методы глубокого подкрепляющего обучения, применяемые в НЛП и мультимодальном интеллекте языка.
Чему можно научиться?
- Применять модели глубокого обучения для решения задач машинного перевода и общения.
- Применять глубинно структурированные семантические модели для поиска информации и приложений на естественном языке.
- Использовать модели глубокого подкрепления для обучения в приложениях на естественном языке.
- Применять модели глубокого обучения для субтитров к изображениям и визуального ответа на вопросы.
Кто может пройти этот курс?
Существуют ограничения политического характера для желающих пройти данный курс. Жителям таких стран, как Куба, Иран и также гражданам, проживающим на территории Крыма, будет отказано в обучении из-за санкций.
Создатели курса стараются выразить ноту протеста против созданных санкций, но пока не получили разрешения на лицензированное обучение в упомянутых выше странах.
Еще машинного обучения
Люди часто спрашивают меня, знаю ли я Тайлера Дерд… В смысле люди спрашивают о материалах по машинному обучению (нашли специалиста конечно), так что соберу тут.
Курсы
Достаточно глубокая и широкая специализация, но участники первого курса отзывались, как о тягомотине. Первый курс вводный, знакомит с питоном и основными математическими понятиями. Второй курс сильно пересекается с упомянутым выше курсом ВШЭ. Остальные четыре новые материалы
От профессора Стэнфорда, ведущего ученого в этой области и основателя платформы Coursera. Очень свежий курс и интересный курс посвященный нейросетям.
Очень любопытная платформа и курс. Фактически это удаленный университет, который выдает “степеньку” (nano-degree) по актуальным научно-техническим направлениям. Для американских слушателей есть гарантия трудоустройства по окончанию или манибэк. Первый курс опять же повторяет состав Вышкинского.
Лекции К.В.Воронцова на Youtube
Упомянутые в прошлом обзоре лекции. Материал повторяет вышкинский курс, но гораздо более размеренно и понятно.
Книжечки
Как вы понимаете книг на эту тему написано гораздо больше, чем вы сможете прочитать за всю жизнь, так что тут списком те, которые я сам просматривал, почитывал.
Python for Data analysis — в 2008 году Wes McKinney написал библиотеку Pandas, предназначенную для высокопроизводительных вычислений в Python, связанных с анализом данных. Преимущественно финансовых. Книга его авторства посвящена не только Pandas, но в целом практике работы на Python. Для человека привыкшего к матрицам в Matlab и массивам в C/C++ приемы работы с Pandas могут показаться неочевидными.
Simon Haykin “Neural Networks”. Изначально с творчеством автора познакомился по его фундаментальной Adaptive Filter Theory , но и эта книги многими считается классикой.
Ian Goodfellow “Deep Learning” Термин DeepLearning видимо навязал издатель, потому что ну любой дурак сейчас знает, что Deep Learning это как Оксимирон и МакГрегор, только для ботанов. Подробная теоретическая книга посвященная архитектуре нейросетей и их обучению.
Тартышников “Матричный анализ и линейная алгебра” http://www.inm.ras.ru/vtm/lection/all.pdf
Тусовка
Хотя сейчас принято быть специалистом во всем сразу (вчера специалист по биткам, завтра по deep learning), но есть вещи в которых на голом хайпе далеко не уедешь. За мишурой и красивыми картинками машинного обучения прячется довольно сложная математика.
В России существует вполне мирового уровня “тусовка” ученых, компаний, ВУЗов и участников соревнований Kaggle.
Крупнейшее объединение — OpenDataScience представлено блогом на хабре и группой в Slack. В блоге есть открытый курс по машинному обучению из 10 тем и несколько ярких историй попадания в топ Kaggle.
Большинство участников соревнований сходятся на том, что участие в соревнованиях и обсуждение результатов с другими участниками самый эффективный путь обучения.
Что еще?
Помимо забивания гвоздей “золотым молотком” машинного обучения, а так же откручивания гаек этим молотком и сборки часов с помощью молотка, человечество придумало довольно богатый инструментарий.
Курс Дискретная Оптимизация — прослушал три недели, пришлось оставить по независящим от платформы причинам. Думаю до конца года закрыть.
Очень насыщенный и интересный курс от UC San Diego и ВШЭ. Последовательно раскрываются основаные структуры данных и алгоритмов, отдельные курсы посвященные алгоритмам на графах и на строках, последний курс Genome Assembly
16 бесплатных онлайн-курсов по машинному обучению
Популярная тенденция в сфере онлайн-образования — массовые открытые онлайн-курсы (Massive open online-courses, MOOC). Появились бесплатные курсы по машинному обучению и data science. Они доступны каждому и основаны на образовательных программах от ведущих университетов, например, МФТИ.
Большинство MOOC по машинному обучению доступны на английском языке и представлены на известных платформах онлайн-образования, таких как Coursera, Udacity, World Education University и edX.
Отдельно стоит отметить, что курсы Coursera доступны бесплатно только для прослушивания лекций. Для того, чтобы выполнять задания или получить сертификат по окончании курса, нужно оформить подписку или оплатить курс.
Видео-материалы и лекции курса можно получить бесплатно, для этого на странице курса внизу нужно нажать кнопку «прослушать курс», как показано на картинке:
Как бесплатно прослушать курсы по машинному обучению
В этой статье собраны бесплатные курсы по машинному обучению и Data Science на русском языке или с русскими субтитрами.
Введение в машинное обучение
Авторы: ВШЭ и Яндекс
Платформа: Coursera
Язык: русский
На курсе Константина Воронцова Введение в машинное обучение рассматриваются популярные задачи, решаемые с помощью машинного обучения — классификация, регрессия, кластеризация. Слушателю нужно знать об основных понятиях математики: функциях, производных, векторах, матрицах, желательно иметь базовые навыки программирования и быть знакомым с python.
Продолжительность: 35 часов
Машинное обучение и анализ данных
Авторы: МФТИ и Яндекс
Платформа: Coursera
Язык: русский
Специализация Машинное обучение и анализ данных включает 6 курсов. Осваиваются основные инструменты, необходимые в работе с большим массивом данных: современные методы классификации и регрессии, поиск структуры в данных, проведение экспериментов, построение выводов, фундаментальная математика, основы программирования на python.
Продолжительность: 8 месяцев (7 часов в неделю)
Python для анализа данных
Авторы: МФТИ, ФРОО, Mail.ru Group
Платформа: Coursera
Язык: русский
Курс Python для анализа данных ориентирован на решение практических задач. Студенты будут применять свои навыки программирования для построения предиктивных моделей, визуализации данных и работы с нейросетями.
Продолжительность: 25 часов
Введение в науку о данных
Автор: СПбГУ
Платформа: Coursera
Язык: русский
Курс Введение в науку о данных рассматривает постановку и решение типичных задач, с которыми может столкнуться в своей работе data scientist, подходы к сбору, анализу, обработке и визуализации массивов данных.
Продолжительность: 17 часов
Глубокое обучение в творчестве с TensorFlow
Автор: Google Magenta
Платформа: Kadenze
Язык: английский, русские субтитры
MOOC Использование глубокого обучения в творчестве с помощью TensorFlow расскажет о том, как строить алгоритмы глубокого обучения на основе сверточных, рекуррентных, генеративных нейросетей и применять их для создания творческих приложений.
Продолжительность: 60 часов
Data Science
Автор: Johns Hopkins University
Платформа: Courserа
Язык: английский, русские субтитры
В специализацию Data Science университета John Hopkins входят 10 курсов, включая сбор и сортировку данных, программирование на языке R, регрессионные модели, разработку продуктов для обработки данных и другие.
Продолжительность: 8 месяцев (5 часов в неделю)
Data science для руководителей
Автор: Johns Hopkins University
Платформа: Courserа
Язык: английский, русские субтитры
Data Science для руководителей — это ускоренная обучающая программа — 5 курсов, которые дают базовое понимание о том, что такое data science и как работать с проектами в этой сфере, собирать и развивать команду и даже лидерские качества.
Продолжительность: 40 часов
Нейронные сети
Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский
Бесплатный курс Нейронные сети дает основы теории нейронных сетей и практики применения. Детальный разбор процесса создания и применения нейронных сетей. Алгоритмы, лежащие в основе нейросетей и множество практических задач.
Продолжительность: 33 часа
Программирование на Python
Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский
На курсе Программирование на Python представлены базовые понятия программирования на python и большое количество практических задач. Решения будут проверяться автоматической системой.
Продолжительность: 22 часа
Алгоритмы: теория и практика. Методы
Автор: Computer Science Center
Платформа: Stepic
Язык: русский
Рассматриваются теоретические основы создания алгоритмов и особенности реализации на языках C++, Java и Python.
Продолжительность: 35 часов
Основы программирования на R
Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский
На курсе Основы программирования на R изучаются основные типы данных и семантические правила, анализ и обработка данных.
Продолжительность: 19 часов
Анализ данных в R
Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский
На курсе рассматриваются этапы статистического анализа на R — предварительная обработка данных, применение статистических методов анализа и визуализация данных.
Продолжительность: 21 час
Базы данных
Автор: СПбГУ
Платформа: Coursera
Язык: русский
В основе курса Базы данных изучение и применение языка SQL для создания, модификации объектов и управления данными в реляционных базах данных. Рассматриваются сферы применения NoSQL баз данных и современные подходы к обработке big data.
Продолжительность: 20 часов
От Excel до MySQL: способы анализа бизнес-данных
Автор: Duke University
Платформа: Coursera
Язык: английский, русские субтитры
В специализацию входят 5 курсов, которые демонстрируют, как использовать Excel, Tableau и MySQL для анализа данных, прогнозирования, создания моделей и визуализации данных для решения задач и улучшения бизнес-процессов.
Продолжительность: 8 месяцев (5 часов в неделю)
Линейная регрессия
Автор: СПбГУ
Платформа: Coursera
Язык: русский
В курсе Линейная регрессия разбираются основные методы описания взаимосвязей между количественными признаками, регрессионный анализ и построение моделей. Специальное место отводится операциям с матрицами. Курс ориентирован на людей, которые уже знакомы с базовыми понятиями анализа данных.
Продолжительность: 22 часа
Анализ данных
Автор: НГУ
Платформа: Coursera
Язык: русский
В специализацию Анализ данных Новосибирского государственного Университета входят 4 курса. Курсы содержат материалы по основам теории вероятностей и математической статистики, исследованию связей между признаками, построению прогнозов на основе регрессионных моделей, кластерному и статистическому анализу. Курсы разработаны совместно с 2GIS.
Продолжительность: 4 месяца (3 часа в неделю)