ما هي عملية الترميز (Tokenization)؟
لا تستطيع نماذج الذكاء الاصطناعي قراءة النصوص مباشرة. عملية الترميز هي خطوة معالجة مسبقة تقوم بتقسيم الجمل إلى أجزاء صغيرة جداً وتخصيص قيمة رقمية لكل جزء.
الفرق بين الرموز والكلمات
تساوي كل 100 كلمة باللغة الإنجليزية حوالي 130 إلى 140 رمزاً رقمياً. بالنسبة للغات الأخرى، قد تستهلك الحروف عدداً أكبر من الرموز نظراً لعدم شمول القواميس الافتراضية لها.