Google BERT Vs. Смит алгоритмдери чогуу иштешет - Semalt обзор




Google жакында алардын жаңы NLP алгоритми SMITH боюнча илимий эмгегин чыгарды. Бул эмгек көптөгөн SEO адистерин SERP рейтингинин жогорулашына же төмөндөшүнө кепилдик бере турган өзгөрүүлөр жөнүндө маалымдады. Ошентсе да, бул жердеги SMITH алгоритминин BERTге салыштырмалуу таасири кандай?

Google жарыялаган макалада, SMITH узак издөө суроолорун жана узак документтерди түшүнүүдө BERTден ашып түшөт деп ырастаган. SMITHди ушунчалык кызыктуу кылган нерсе, ал документтеги үзүндүлөрдү BERTдин сөз жана сүйлөм менен кылганына окшош бөлүктөрдү түшүнө алат. SMITH бул өркүндөтүлгөн өзгөчөлүгү узак документтерди оңой түшүнүүгө мүмкүнчүлүк берет.

Бирок мындан аркы кадамдарды жасоодон мурун, SMITH гуглдун алгоритминде иштебей тургандыгын билдиришибиз керек. Бирок эгер биздин божомолдорубуз туура болсо, анда ал үзүндүнү индекстөө менен катар башталат, же андан мурун болот. Эгер сиз чындыгында эле SEPде кандайча рейтинг түзүүнү билгиси келсе, Machine learning сөзсүз түрдө ушул кызыгуу менен катарлаш болмок.

Ошентип, темага кайрылып, БЕРТ алмаштырылганы жатабы? Интернеттеги документтердин көпчүлүгү көлөмдүү, бекем жана мындан ары SMITH менен жакшыраак иштебейби?

Келгиле, андан ары секирип, кандай жыйынтыкка келгенибизди көрөбүз. SMITH күчтүү жана жука документтерди окуу ишин да аткара алат. Базука сыяктуу элестетип көрүңүз. Ал чоң зыян алып келиши мүмкүн, ошондой эле эшиктерди ачышы мүмкүн.

Баштоо үчүн, эмне үчүн BERT ЖЕ SMITH?

Бул жерде чыныгы суроо - издөө тутуму эмне үчүн издөө натыйжаларын камсыз кылуу үчүн Natural Learning Processing талап кылат. Жооп жөнөкөй. Издөө тутумдары издөө тутумун түшүнгөн саптардан же ачкыч сөздөрдөн нерселерге же веб-баракчаларга өтүүдө NLP талап кылат.

Google идеясы жок жерде, ачкыч сөздөрдөн башка дагы эмне болушу мүмкүн же индекстелген индекстөө издөө сурамына карата мааниге ээби. NLPдин жардамы менен, Google издөө сурамына киргизилген белгилердин контекстин түшүнө алат.
Google компаниясы NLPдин жардамы менен "дарыянын жээги" жана "банк эсеби" деп айтканда колдонуучунун ниетин айырмалай алат. Ошондой эле, "Каролин достору менен суусундук, суусундуктар, пинте, але, сыра үчүн жолугушту" деген сөздөрдү табигый эмес нерсе деп түшүнсө болот.

SEO адистери катары, издөө сурамын түшүнүү узак жолду басып өттү деп айтууга тийишпиз. Мыктысы, буга чейин интернеттен туура макалаларды табуу өтө эле кыйын болгон деп эсептешет.

BERT жөнүндө түшүнүк

Учурда BERT бизде, айрыкча, татаал тилдик структураларды түшүнүүгө келгенде, көпчүлүк колдонмолор үчүн эң мыкты NLP модели катары иштейт. Көпчүлүк биринчи Bidirectianal мүнөзүн ушул алгоритмдеги эң чоң секирик деп эсептешет. Солдон оңго окуй турган алгоритмдин ордуна, BERT сөздөрдү алардын контекстине карата да түшүнө алат. Ошентип, бул суроого коюлган айрым сөздөр үчүн натыйжа бербейт, бирок издөө сурамындагы сөздөрдүн жалпы маанисине негизделген веб-баракчалар.

Түшүнүүнү жеңилдетүү үчүн бир мисал келтирилген:

Жүк ташуучу унаа жарык.

Эгер сиз бул сөздү солдон оңго чечмелей турган болсоңуз, анда "жарык" деген сөзгө жеткенде, жүк ташуучу унааны жарык менен бир нерсе деп эсептеген болосуз. Себеби жүк ташуучу унаа билдирүүдө жарыктын алдында келген.

Бирок жүк ташуучу унаалардагы нерселерди классификациялоону кааласак, анда "жүк ташуучу унаага" чейин жолукпагандыктан, "жеңил" нерсени таштап коюшубуз мүмкүн.

Арызды бир гана багытта карап чыгуу кыйын.

Андан тышкары, BERTдин ушунчалык укмуштуудай дагы бир жашыруун пайдасы бар жана ал тилди мурунку моделдерге салыштырмалуу ресурстарды аз сарптап, натыйжалуу иштетүүгө мүмкүндүк берет. Чындыгында, аны адам бүтүндөй желеде колдонууну ойлонуштурган маанилүү фактор.

Токендерди колдонуу BERTди коштогон дагы бир эволюция. BERTде 30,000 токен бар жана алардын ар бири жалпы сөздү билдирет, эгерде сөз 30,000ден тышкары болсо, белгилер жана фрагменттер үчүн бир нече кошумча белгилер бар.

Токендерди жана трансформаторлорду иштетүү жөндөмү аркылуу BERT мазмунун түшүнүп, сүйлөмдөрдү жетиштүү деңгээлде түшүнүү мүмкүнчүлүгүн берди.

Демек, "жаш айым банкка жөнөдү. Кийинчерээк дарыянын жээгинде отуруп, дарыянын агымын карап турду".

BERT ал сүйлөмдөргө ар кандай баалуулуктарды берет, анткени алар эки башка нерсени билдирет.

SMITHти түшүнүү

Андан кийин SMITH, ири документтерди иштетүүдө колдонула турган ресурстар жана сандар жакшыраак алгоритм келет. BERT бир документ үчүн болжол менен 256 токен колдонот жана ал ушул чектен ашып кеткенде, эсептөө баасы оптималдуу иштөө үчүн өтө эле жогору болуп калат. Ал эми, SMITH бир документ үчүн 2248 токенге чейин иштей алат. Бул BERT колдонгон токендердин саны 8Xке жакын.

Эмне үчүн эсептөө чыгымдары бир NLP моделинде көтөрүлүп жаткандыгын түшүнүү үчүн, адегенде сүйлөмдү жана абзацты түшүнүү үчүн эмне талап кылынарын карап чыгышыбыз керек. Сүйлөм менен мамиле түзүүдө бир гана жалпы түшүнүк түшүнүлөт. Бири-бирине байланышкан сөздөр азыраак, ошондуктан сөздөр менен алардын эс тутумундагы идеялардын байланышы азыраак.

Абзацтарга сүйлөм түзүү менен, бул сөздөрдүн ортосундагы байланыш абдан көбөйтүлөт. 8X текстин иштеп чыгуу ошол эле моделдин жардамы менен ылдамдыкты жана эс тутумду оптималдаштыруу мүмкүнчүлүгүн дагы бир нече жолу талап кылат. Бул жерде SMITH негизинен пакеттөө жана оффлайн режиминде көп иштеп чыгуу менен айырмачылыктарды жаратат. Кызыгы, SMITH дагы эле BERTдин туура иштешине көз каранды.

Бул жерде SMITH документти кантип өзөгүнө алгандыгын сүрөттөө:
  1. Алгач документти башкарууну жеңилдеткен топтордун өлчөмдөрүнө бөлөт.
  2. Андан кийин сүйлөмдөрдүн ар бир блогун өзүнчө иштеп чыгат.
  3. Андан кийин трансформатор ар бир блоктун контексттик чагылдырылышын үйрөнөт, андан кийин аларды документтик көрсөтүүгө айлантат.

SMITH кантип иштейт?

SMITH моделин үйрөтүү үчүн биз BERTден эки жол менен үйрөнөбүз:

БЕРТти үйрөтүү үчүн, бир сүйлөмдөн бир сөз алынып, башка варианттар сунушталат

Жакшыраак даярдалган BERT - сунушталган альтернативалардын арасынан туура вариантты тандоодо ийгиликтүү болот. Мисалы, эгер BERTге сүйлөм берилсе:

Бактылуу күрөң ------ пикет тосмосунан ашып түштү.
  • Биринчи вариант - помидор.
  • Экинчи вариант - ит.
BERT канчалык мыкты даярдалса, анын экинчиси болгон туура вариантты тандап алуу мүмкүнчүлүгү ошончолук жогору болот.

Бул окутуу ыкмасы SMITHде дагы колдонулат.

SMITH ири документтерге үйрөтүлөт

SMITH канчалык мыкты даярдалса, анын калтырып кеткен сүйлөмдөрдү таануу мүмкүнчүлүгү ошончолук жогору болот. Бул BERT менен бир эле идея, бирок башка колдонмо. Бул бөлүк өзгөчө кызыктуу, анткени ал издөө тутумунун натыйжаларынын беттерине Google тарабынан түзүлгөн контентти жараткан. Албетте, колдонуучулар кетиши мүмкүн, бирок алар кетишпейт, анткени Google кыска жана узак формадагы маалыматтарды натыйжалар барагындагы бардык мыкты булактардан камтыйт.

Эгерде сиз бул нерседен күмөн санап жатсаңыз, анда ал буга чейин эле болуп баштаганын билишиңиз керек, бирок алар али өздөштүрө элек болсо дагы, бул башталышы.

SMITH BERTтен артыкпы?

Сиз окуган нерселердин бардыгы менен SMITH жакшыраак деп ойлошуңуз толук табигый нерсе, жана көптөгөн маселелерде ал чындыгында жакшыраак. Бирок бир саамга интернетти кантип колдонуп жатканыңызды карап көрүңүз; издөө суроолоруна кандай суроолорду киргизип турасыз?
  • "Бүгүнкү аба ырайы кандай болот?"
  • "Ресторанга көрсөтмөлөр".
Мындай издөө суроолоруна жооп берүү үчүн, адатта, чектелген жана татаал эмес маалыматтар менен кыска мазмун талап кылынат. SMITH узак жана татаал документтерди жана узак жана татаал издөө суроолорун түшүнүүгө көбүрөөк катышат.

Буга жоопторду түзүү үчүн бир нече документтерди жана темаларды бириктирүү кирет. Мазмунду кандайча бузууга боло тургандыгын аныктап, Google'га көрсөтүлө турган нерсени туура билүүгө мүмкүнчүлүк берет. Бул Google'га мазмунун барактары бири-бири менен кандайча байланышта экендигин түшүнүүгө жардам берет жана шилтемелер башка артыкчылыктардын катарында баалана турган масштаб берет.

Ушундан улам, биз BERT жана SMITH экөө тең маанилүү экендигин айтып, алардын экөө тең өзгөчө максатына кызмат кылышат.

Корутунду

SMITH базар болсо да, ал нерселердин жалпы жонунан кандайча болуп жаткандыгын айкын чагылдыруу үчүн керек. Ресурстарда, бул чоңураак жумуш аткаргандыктан көбүрөөк чыгымдарды талап кылат, бирок ошол эле жумушту аткарганда BERTке караганда бир топ арзаныраак болот.

BERT SMITH компаниясына кыска суроолорду жана мазмундун майда бөлүктөрүн түшүнүүгө жардам берет. Бирок, Google экөөнү тең алмаштыра турган дагы бир NLP алгоритмин иштеп чыкмайынча, андан кийин биз SEOда дагы бир жылышка жетишип, жетишип калабыз.

SEO кызыктырабы? Боюнча башка макалаларыбызды карап чыгыңыз Semalt блогу.