Na leig le stòradh a bhith na phrìomh bhotal ann an trèanadh modail

Thathas ag ràdh gu bheil companaidhean teicneòlais an dàrna cuid a ’sporghail airson GPUs no air an t-slighe gus am faighinn. Anns a’ Ghiblean, cheannaich Ceannard Tesla, Elon Musk, 10,000 GPUs agus thuirt e gun leanadh a’ chompanaidh orra a’ ceannach àireamh mhòr de GPUs bho NVIDIA. Air taobh na h-iomairt, tha luchd-obrach IT cuideachd a’ putadh gu cruaidh gus dèanamh cinnteach gu bheilear a’ cleachdadh GPUs gu cunbhalach gus an toradh as motha fhaighinn air tasgadh. Ach, is dòcha gum faigh cuid de chompanaidhean a-mach, ged a tha an àireamh de GPUs ag èirigh, gu bheil idleness GPU a’ fàs nas cruaidhe.

Ma tha eachdraidh air rud sam bith a theagasg dhuinn mu choimpiutaireachd àrd-choileanadh (HPC), is e sin nach bu chòir stòradh agus lìonradh a bhith air an ìobairt aig cosgais cus fòcas a chuir air àireamhachadh. Mura h-urrainn do stòradh dàta a ghluasad gu h-èifeachdach gu na h-aonadan coimpiutaireachd, eadhon ged a tha na GPUs as motha san t-saoghal agad, cha choilean thu an èifeachdas as fheàrr.

A rèir Mike Matchett, anailisiche aig Small World Big Data, faodar modalan nas lugha a chuir gu bàs mar chuimhne (RAM), a’ ceadachadh barrachd fòcas air àireamhachadh. Ach, chan urrainnear modalan nas motha leithid ChatGPT le billeanan de nodan a stòradh mar chuimhneachan air sgàth na cosgais àrd.

“Chan urrainn dhut na billeanan de nodan a chuir nad chuimhne, agus mar sin bidh stòradh a’ fàs eadhon nas cudromaiche, ”tha Matchett ag ràdh. Gu mì-fhortanach, thathas gu tric a’ dearmad stòradh dàta tron ​​phròiseas dealbhaidh.

San fharsaingeachd, ge bith dè a’ chùis cleachdaidh, tha ceithir puingean cumanta anns a ’phròiseas trèanaidh modail:

1. Trèanadh Modail
2. Iarrtas Co-dhùnaidh
3. Stòradh Dàta
4. Coimpiutaireachd Luathaichte

Nuair a bhios iad a’ cruthachadh agus a’ cleachdadh mhodalan, bidh a’ mhòr-chuid de riatanasan a’ toirt prìomhachas do àrainneachdan dearbhaidh bun-bheachd (POC) no deuchainn gus trèanadh modail a thòiseachadh, le feumalachdan stòraidh dàta gun phrìomh bheachdachadh.

Ach, is e an dùbhlan gum faod trèanadh no cleachdadh co-dhùnaidhean mairsinn airson mìosan no eadhon bliadhnaichean. Bidh mòran chompanaidhean ag àrdachadh na meudan modail aca gu luath aig an àm seo, agus feumaidh am bun-structar leudachadh gus gabhail ris na modalan agus na stòran-dàta a tha a’ fàs.

Tha rannsachadh bho Google air milleanan de eallach obrach trèanaidh ML a’ nochdadh gu bheil cuibheas de 30% den ùine trèanaidh ga chaitheamh air loidhne-phìoban dàta cuir a-steach. Ged a tha rannsachadh san àm a dh'fhalbh air fòcas a chuir air a bhith a 'dèanamh an fheum as fheàrr de GPUs gus trèanadh a luathachadh, tha mòran dhùbhlain fhathast ann a bhith a' dèanamh an fheum as fheàrr de dhiofar phàirtean den loidhne-phìoban dàta. Nuair a bhios cumhachd coimpiutaireachd mòr agad, thig am fìor bhotal gu bhith cho luath ‘s as urrainn dhut dàta a bhiadhadh a-steach do na h-àireamhan gus toraidhean fhaighinn.

Gu sònraichte, tha na dùbhlain ann an stòradh agus riaghladh dàta a’ feumachdainn planadh airson fàs dàta, a’ toirt cothrom dhut luach dàta a thoirt a-mach gu leantainneach mar a thèid thu air adhart, gu sònraichte nuair a thèid thu a-steach do chùisean cleachdaidh nas adhartaiche leithid ionnsachadh domhainn agus lìonraidhean neural, a chuireas iarrtasan nas àirde air. stòradh a thaobh comas, coileanadh, agus scalability.

Gu sònraichte:

Scalability
Feumaidh ionnsachadh innealan làimhseachadh mòran dàta, agus mar a tha meud an dàta a’ dol am meud, bidh cruinneas mhodalan a’ fàs nas fheàrr. Tha seo a’ ciallachadh gum feum gnìomhachasan barrachd dàta a chruinneachadh agus a stòradh gach latha. Nuair nach urrainn don stòradh sgèile, bidh eallach obrach dian-dàta a’ cruthachadh botail, a’ cuingealachadh coileanadh agus a’ leantainn gu ùine leisg GPU cosgail.

Sùbailteachd
Tha feum air taic sùbailte airson grunn phròtacalan (a’ gabhail a-steach NFS, SMB, HTTP, FTP, HDFS, agus S3) gus coinneachadh ri feumalachdan diofar shiostaman, seach a bhith cuibhrichte gu aon seòrsa àrainneachd.

Laitency
Tha latency I/O deatamach airson a bhith a’ togail agus a’ cleachdadh mhodalan leis gu bheil dàta air a leughadh agus air ath-leughadh iomadh uair. Le bhith a’ lughdachadh latency I/O faodaidh sin ùine trèanaidh mhodalan a ghiorrachadh le làithean no mìosan. Tha leasachadh modail nas luaithe ag eadar-theangachadh gu dìreach gu buannachdan gnìomhachais nas motha.

Trochur
Tha tar-chur shiostaman stòraidh deatamach airson trèanadh modail èifeachdach. Bidh pròiseasan trèanaidh a’ toirt a-steach mòran dàta, mar as trice ann an terabytes san uair.

Ruigsinneachd co-shìnte
Gus toradh àrd a choileanadh, bidh modalan trèanaidh a’ roinn ghnìomhachdan gu grunn ghnìomhan co-shìnte. Bidh seo gu tric a’ ciallachadh gum faigh algorithms ionnsachadh inneal cothrom air na h-aon fhaidhlichean bho ioma-phròiseasan (is dòcha air iomadh seirbheisiche fiosaigeach) aig an aon àm. Feumaidh an siostam stòraidh dèiligeadh ri iarrtasan co-aontach gun a bhith a’ toirt buaidh air coileanadh.

Le na comasan sònraichte aige ann an latency ìosal, trochur àrd, agus I / O co-shìnte air sgèile mhòr, tha Dell PowerScale na dheagh stòradh stòraidh ri coimpiutaireachd luathaichte GPU. Bidh PowerScale gu h-èifeachdach a’ lughdachadh na h-ùine a dh’ fheumar airson modalan sgrùdaidh a bhios a’ trèanadh agus a’ dèanamh deuchainn air seataichean dàta ioma-terabyte. Ann an stòradh làn-flash PowerScale, bidh leud-bann ag èirigh 18 tursan, a’ cur às do bhotail I/O, agus faodar a chur ris na cruinneachaidhean Isilon a th’ ann mar-thà gus luach meudan mòra de dhàta neo-structaraichte a luathachadh agus fhuasgladh.

A bharrachd air an sin, tha comasan ruigsinneachd ioma-phròtacal PowerScale a’ toirt sùbailteachd gun chrìoch airson a bhith a’ ruith eallach obrach, a’ leigeil le dàta a bhith air a stòradh a’ cleachdadh aon phròtacal agus faighinn thuige le bhith a’ cleachdadh fear eile. Gu sònraichte, tha na feartan cumhachdach, sùbailteachd, scalability, agus comas-gnìomh ìre iomairt an àrd-ùrlar PowerScale a’ cuideachadh le bhith a’ dèiligeadh ris na dùbhlain a leanas:

- Luathaich ùr-ghnàthachadh suas ri 2.7 tursan, a’ lughdachadh cearcall trèanaidh modail.

- Cuir às do bhotail I / O agus thoir seachad trèanadh agus dearbhadh modail nas luaithe, cruinneas modail nas fheàrr, cinneasachd saidheans dàta leasaichte, agus toradh as motha air tasgaidhean coimpiutaireachd le bhith a’ faighinn buannachd bho fheartan ìre iomairt, àrd-choileanadh, co-ionannachd, agus scalability. Meudaich cruinneas modail le stòran-dàta nas doimhne, le rùn nas àirde le bhith a’ faighinn suas ri 119 PB de chomas stòraidh èifeachdach ann an aon bhuidheann.

- Dèan cleachdadh aig sgèile le bhith a’ tòiseachadh air sgèile bheag agus neo-eisimeileach coimpiutaireachd agus stòradh, a’ lìbhrigeadh roghainnean dìon dàta is tèarainteachd làidir.

- Leasaich cinneasachd saidheans dàta le mion-sgrùdadh in-àite agus fuasglaidhean ro-dhearbhte airson cleachdadh nas luaithe, le cunnart ìosal.

- A’ cleachdadh dhealbhaidhean dearbhte stèidhichte air na teicneòlasan as fheàrr den ghnè, a’ toirt a-steach luathachadh NVIDIA GPU agus ailtireachd iomraidh le siostaman NVIDIA DGX. Bidh àrd-choileanadh agus concurrency PowerScale a’ coinneachadh ri riatanasan coileanaidh stòraidh aig a h-uile ìre de ionnsachadh innealan, bho bhith a’ togail agus ag ullachadh dàta gu trèanadh modail agus co-dhùnadh. Còmhla ri siostam obrachaidh OneFS, faodaidh a h-uile nodan obrachadh gu sgiobalta taobh a-staigh an aon bhuidheann a tha air a stiùireadh le OneFS, le feartan ìre iomairt leithid riaghladh coileanaidh, riaghladh dàta, tèarainteachd, agus dìon dàta, a’ comasachadh trèanadh modail a chrìochnachadh nas luaithe agus dearbhadh airson gnìomhachasan.


Ùine puist: Iuchar-03-2023