این پست به پنج قسمت تقسیم می شود. آنها عبارتند از: • توکن سازی ساده لوح • نشاط و لیماتیزاسیون • رمزگذاری جفت بایت (BPE) • کلمه قطعه • جمله و unigram ساده ترین شکل توکن سازی متن را بر اساس فضای سفید به نشانه ها می بخشد.
منبع: machinelearningmastery.com
