LLM Course

0. စတင်ပြင်ဆင်ခြင်း

1. Transformer models များ

2. 🤗 Transformers ကို အသုံးပြုခြင်း

3. Pretrained Model တစ်ခုကို Fine-tuning လုပ်ခြင်း

4. Models နှင့် Tokenizers များကို မျှဝေခြင်း

5. The 🤗 Datasets library

6. The 🤗 Tokenizers library

နိဒါန်း Old Tokenizer တစ်ခုမှ New Tokenizer တစ်ခုကို Training လုပ်ခြင်း Fast Tokenizers များ၏ ထူးခြားသော စွမ်းအားများ QA Pipeline ရှိ Fast Tokenizers များ Normalization နှင့် Pre-tokenization Byte-Pair Encoding Tokenization WordPiece Tokenization Unigram Tokenization Tokenizer တစ်ခုကို Block အလိုက် တည်ဆောက်ခြင်း Tokenizers၊ အဆင်သင့်ဖြစ်ပါပြီ!အခန်း (၆) ဆိုင်ရာ မေးခွန်းများ

7. Classical NLP Tasks များ

8. အကူအညီတောင်းခံနည်း

9. Demos များ တည်ဆောက်ခြင်းနှင့် မျှဝေခြင်း

10. အရည်အသွေးမြင့် Datasets များကို စုစည်းခြင်း

11. Large Language Models များကို Fine-tune လုပ်ခြင်း

12. Reasoning Models များ တည်ဆောက်ခြင်း new

သင်တန်း ဆိုင်ရာ အခမ်းအနားများ

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Tokenizers၊ အဆင်သင့်ဖြစ်ပါပြီ!

ဒီအခန်းကို ပြီးဆုံးအောင် လေ့လာနိုင်ခဲ့တဲ့အတွက် ဂုဏ်ယူပါတယ်။

tokenizers တွေအကြောင်း နက်နက်နဲနဲ လေ့လာပြီးနောက်၊ သင်ဟာ အောက်ပါတို့ကို လုပ်ဆောင်နိုင်သင့်ပါတယ်…

tokenizer အဟောင်းတစ်ခုကို template အဖြစ် အသုံးပြုပြီး tokenizer အသစ်တစ်ခုကို train လုပ်နိုင်ခြင်း။
tokens တွေရဲ့ positions တွေကို ၎င်းတို့ရဲ့ မူရင်း text span တွေနဲ့ map လုပ်ဖို့ offsets တွေကို ဘယ်လိုအသုံးပြုရမယ်ဆိုတာ နားလည်ခြင်း။
BPE, WordPiece, နဲ့ Unigram တို့ကြားက ကွာခြားချက်တွေကို သိရှိခြင်း။
🤗 Tokenizers library က ပံ့ပိုးပေးထားတဲ့ blocks တွေကို ရောနှောပြီး သင့်ကိုယ်ပိုင် tokenizer ကို တည်ဆောက်နိုင်ခြင်း။
အဲဒီ tokenizer ကို 🤗 Transformers library အတွင်းမှာ အသုံးပြုနိုင်ခြင်း။

ဝေါဟာရ ရှင်းလင်းချက် (Glossary)

Tokenizer: စာသား (သို့မဟုတ် အခြားဒေတာ) ကို AI မော်ဒယ်များ စီမံဆောင်ရွက်နိုင်ရန် tokens တွေအဖြစ် ပိုင်းခြားပေးသည့် ကိရိယာ သို့မဟုတ် လုပ်ငန်းစဉ်။
Train a New Tokenizer: အစကနေ သို့မဟုတ် လက်ရှိ tokenizer တစ်ခုကို အခြေခံ၍ စာသား corpus အသစ်တစ်ခုပေါ်တွင် tokenizer အသစ်တစ်ခုကို လေ့ကျင့်တည်ဆောက်ခြင်း။
Template (Tokenizer): tokenizer အသစ်တစ်ခုကို တည်ဆောက်ရာတွင် အခြေခံအဖြစ် အသုံးပြုသော လက်ရှိ tokenizer။
Offsets: token တစ်ခုစီသည် မူရင်းစာသား၏ မည်သည့်စတင်ခြင်းနှင့် အဆုံးသတ် character index များကြားတွင် ရှိနေသည်ကို ဖော်ပြသော map။
Map Tokens’ Positions: tokens များ၏ အနေအထားများကို မူရင်းစာသားရှိ ၎င်းတို့၏ နေရာများနှင့် တွဲဖက်သတ်မှတ်ခြင်း။
Original Span of Text: token တစ်ခု (သို့မဟုတ် အုပ်စု) ထွက်ပေါ်လာသော မူရင်းစာသားအပိုင်းအစ။
BPE (Byte-Pair Encoding): Subword tokenization algorithm တစ်မျိုး။
WordPiece: Subword tokenization algorithm တစ်မျိုး။
Unigram: Subword tokenization algorithm တစ်မျိုး။
🤗 Tokenizers Library: Rust ဘာသာနဲ့ ရေးသားထားတဲ့ Hugging Face library တစ်ခုဖြစ်ပြီး မြန်ဆန်ထိရောက်တဲ့ tokenization ကို လုပ်ဆောင်ပေးသည်။
Blocks (Tokenizer): Tokenizer တစ်ခု၏ ဖွဲ့စည်းပုံကို တည်ဆောက်ရန် အသုံးပြုနိုင်သော normalization, pre-tokenization, post-processing စသည့် အစိတ်အပိုင်းများ။
🤗 Transformers Library: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး Transformer မော်ဒယ်တွေကို အသုံးပြုပြီး Natural Language Processing (NLP), computer vision, audio processing စတဲ့ နယ်ပယ်တွေမှာ အဆင့်မြင့် AI မော်ဒယ်တွေကို တည်ဆောက်ပြီး အသုံးပြုနိုင်စေပါတယ်။

Update on GitHub

←Tokenizer တစ်ခုကို Block အလိုက် တည်ဆောက်ခြင်း အခန်း (၆) ဆိုင်ရာ မေးခွန်းများ→