ML Completeness Checklist

2025 Автор: Timothy Dodson | [email protected]. Акыркы өзгөртүү: 2025-01-22 21:35

Репродуктивдүүлүктү жогорулатуу жана башкаларга жарыяланган чыгармаларды оңойураак курууга мүмкүнчүлүк берүү максатында, биз ML кодунун толуктугун текшерүү тизмесин сунуштайбыз. ML Code Completeness Checklist анда камтылган сценарийлердин жана экспонаттардын негизинде код дүкөнүн баалайт.

Киришүү

Өткөн жылы, Джоэль Пино ири OA конференцияларында (NeurIPS, ICML,…) сунуш кылынган кайталана турган изилдөөлөрдү жеңилдетүү үчүн кайра жаралуучу текшерүү тизмесин чыгарган. Текшерүү тизмесиндеги пункттардын көпчүлүгү кагаздын компоненттерине багытталган. Бул текшерүү тизмесиндеги бир пункт "баштапкы кодго шилтеме бериңиз", бирок андан тышкары, бир нече сунуштар берилген.

Эң мыкты тажрыйбалар ML Code Completeness текшерүү тизмесинде жалпыланган, ал эми расмий NeurIPS 2020 коддорун тапшыруу процессине кирет жана рецензенттер өзүлөрү каалагандай колдоно алышат.

M Code Completeness Текшерүү тизмеси код дүкөнүн текшерет:

Көз карандылыктар - Репозиторийде көз карандылык жөнүндө маалымат барбы же айлана-чөйрөнү кантип орнотуу керектиги жөнүндө көрсөтмөлөр барбы?
Окутуунун сценарийлери - Репозиторийде документте сүрөттөлгөн моделдерди үйрөтүү / ылайыкташтыруу жолу барбы?
Баалоо сценарийлери - Репозиторийде үйрөтүлгөн моделдин (лордун) иштешин эсептөө же моделдерде эксперименттерди жүргүзүү үчүн скрипт барбы?
Алдын ала алынган моделдер - Репозиторий алдын-ала даярдалган үлгүлөрдүн салмактарына акысыз кире алабы?
Репозиторийде негизги натыйжалардын таблицасы / графиги жана ошол натыйжаларды көбөйтүү үчүн скрипт барбы?

Ар бир репозиторий 0 (жок) дан 5ке чейин (бардыгы бар) кенени кабыл ала алат. Ар бир пункттун критерийлери жөнүндө көбүрөөк маалыматты Github кампасынан тапса болот.

Текшерүү тизмесинин элементтери пайдалуу кампаларга көмөктөшкөндүгүнө кандай далилдер бар?

Коомчулук жалпысынан GitHub жылдыздарын репозиторийдин пайдалуулугу үчүн прокси катары колдонушат. Демек, ML толуктугун текшерүү тизмесинде жогору упай топтогон реполордо дагы GitHub жылдыздары болушу күтүлөт. Бул гипотезаны текшерүү үчүн, NeurIPS 2019 документтеринде расмий киргизилген 884 GitHub репосу болгон. Бул 884 репонун 25% топтому туш келди тандалып алынып, ML толуктугу текшерүү тизмесинде кол менен текшерилген. Алар бул үлгүдөгү NeurIPS 2019 GitHub реполорун ML кодунун толуктугу текшерүү тизмесиндеги кенелердин саны боюнча топтоштуруп, ар бир топтогу GitHub медиан жылдыздарын картага түшүрүштү. Жыйынтыгы төмөндө:

NeurIPS 2019 реполору 0 кутучалары менен GitHub сайтында 1,5 жылдыздан турган медианасы бар болчу. Ал эми, 5 кутучасы бар реполордо 196,5 GitHub жылдызынын медианасы болгон. Реполордун 9% гана 5 кене, ал эми көпчүлүк реполордо (70%) 3 же андан аз кене болгон. Wilcoxon рангынын суммасы боюнча тестирлөө жүргүзүлүп, 5 кене классындагы жылдыздардын саны 5ке салыштырмалуу башка бардык класстарга караганда бир кыйла (p.value <1e-4) жогору экендиги аныкталды (бул жерде p.value чек болуп саналат). 0,015). Бул көрсөткүчтүн маалыматтарын жана кодун Github кампасынан көрө аласыз.

Бул байланыш кеңири жайылып жаткандыгын текшерүү үчүн, README репозиторийинен жана ага байланыштуу коддон текшерүү тизмесин эсептөөнү автоматташтырган сценарий түзүлдү. Андан кийин биз 884 NeurIPS 2019 репозиторийлеринин топтомун, ошондой эле 2019-жылы жарыяланган бардык ML макалалары үчүн 8926 код репозиторийлеринин кененирээк топтомун кайрадан талдап чыктык. Эки учурда тең, адистер статистикалык маанилүү жол менен кенелерден монотондуу өскөн орточо жылдыздар менен сапаттуу бирдей натыйжага жетишти (p.value <1e-4). Акыр-аягы, туруктуу сызыктуу регрессияны колдонуп, GitHub жылдыздарына оң таасирин тийгизген алдын-ала даярдалган моделдерди жана натыйжаларды таптык.

Бул аналитиктер тарабынан изилдөөчүлөрдүн ML толуктуулугун текшерүү тизмесинде талап кылынган компоненттердин бардыгын кошууга түрткү бериши пайдалуу кампаларга алып келээри жана текшерүү тизмесиндеги упайлар сапаттуу берилгендиги жөнүндө пайдалуу далилдер деп эсептелет.

Азыркы учурда, эксперттер репозиторийдин популярдуулугун камсыз кылган 5 текшерүү тизмеси жалгыз же ал тургай эң маанилүү фактор деп ырасташкан жок. Башка факторлор популярдуулукка таасирин тийгизиши мүмкүн, мисалы: илимий салымдын көлөмү, маркетинг (мисалы, блог посттору жана Twitter билдирүүлөрү), документтер (толук READMEs, окуу куралдары жана API документтери), коддун сапаты жана мурунку иш.

NeurIPS 2019 репозиторийлеринин 5 кутучасы бар айрым мисалдары:

Эксперттер текшерүү тизмесин мүмкүн болушунча жалпылаштырууга аракет кылышкандыгына карабастан, ал документтердин бардык түрлөрүнө, мисалы, теориялык же документтердин топтомуна толугу менен ылайык келбеши мүмкүн экендигин түшүнүшөт. Бирок, макаланын негизги максаты маалымат топтомун көрсөтүү болсо дагы, баштапкы моделдерди, анын ичинде окутуу сценарийлерин, баалоо сценарийлерин жана натыйжаларын чыгаруудан пайда таба алат.

Колдонуп баштаңыз

Сынчыларга жана колдонуучуларга репозиторийде эмне бар экендигин түшүнүү жана эксперттер аны туура баалоосу үчүн, README.md файлдарын жазуу, көзкарандылыктарын аныктоо жана алдын-ала даярдалган моделдерди, маалымат топтомдорун жана натыйжаларын чыгаруу боюнча мыкты тажрыйбалардын жыйнагы берилген. Репозиторийиңиздеги ушул 5 элементти так аныктап, документтериңиз жана лидер такталарыңыз сыяктуу тышкы ресурстарга шилтеме берип, колдонуучуларыңызга көбүрөөк контекст жана айкындуулук берүү сунушталат. Бул NeurIPS 2020 кодун тапшыруу боюнча расмий көрсөтмөлөр.

ML Completeness Checklist

Мазмуну:

Киришүү