لماذا تعجز نماذج الذكاء الاصطناعي عن التهجئة الصحيحة؟
اكتشف مستخدمون أن ميزة نظرة عامة بالذكاء الاصطناعي في غوغل تُخطئ في تهجئة كلمات بسيطة، والسبب في بنية النموذج اللغوي ذاتها التي تعالج النصوص كرموز رقمية لا كحروف منفردة.

في مشهد يصعب تصديقه، أخطأت ميزة نظرة عامة بالذكاء الاصطناعي التابعة لغوغل في تهجئة كلمات أولية، حتى إن النظام كتب اسم الشركة المطوِّرة له بحرفَي P بدلاً من حرف واحد، وحوّل كلمة journalism إلى j-o-u-r-n-a-d-i-s-m، فيما ظهرت Trump مُشوَّهةً على هيئة t-r-p-u-m. هذه الأخطاء ليست نادرة عشوائية، بل تعكس قيداً هيكلياً عميقاً في طريقة عمل النماذج اللغوية الكبيرة.
لفهم السبب، لا بد من النظر في البنية الجوهرية لهذه النماذج. يقوم النموذج اللغوي الكبير (Large Language Model) على معمارية المحوّل، وهي نظام لا يُعالج النصوص حرفاً بحرف كما يفعل الإنسان، بل يُحوِّلها أولاً إلى وحدات تُسمى الرموز المميزة (tokens)، وهي كُتَل نصية قد تكون كلمةً كاملة أو جزءاً منها. عملية التجزئة إلى رموز تُفكّك النص إلى هذه الوحدات الحسابية قبل أن يبدأ النموذج بتحليلها.
وكما شرح باحث في هذا المجال: حين يرى النموذج كلمة the، يمتلك تمثيلاً موحداً لمعناها الكلي، لكنه لا يعرف شيئاً عن حروفها المنفردة. بعبارة أخرى، النموذج يفهم مفهوم الكلمة الكاملة كوحدة رقمية، لكنه يغيب عنه الوعي بالبنية الحرفية التفصيلية.
وقد كشف هذا الخلل عن سلسلة من الإحراجات المتكررة لغوغل منذ إطلاق ميزة نظرة عامة بالذكاء الاصطناعي ضمن محرك البحث؛ إذ سبق أن نقل النظام مقتطفات ساخرة من موقع The Onion على أنها معلومات حقيقية، وأرفق ردوداً جُمِعت من منصة Reddit دون التحقق من دقتها.
تبقى أخطاء التهجئة من أكثر الإشكاليات وضوحاً للمستخدم العادي، رغم أنها ليست الأخطر من الناحية التقنية. يؤكد الباحثون أن إصلاح هذه المشكلة ليس بالأمر اليسير، إذ يرى بعضهم أن القيد متأصّل في آلية عمل النماذج اللغوية الكبيرة ذاتها: حتى لو صُمِّمت قوائم رموز مثالية، سيظل النموذج يُفكّك المعلومات إلى كتل أكبر من الحروف الفردية.
ومن المفارقات اللافتة أن هذا القيد لا يمس الكفاءة الحقيقية لهذه النماذج في المهام الجوهرية؛ فالنماذج اللغوية الكبيرة تتفوق في البرمجة وحل المشكلات المعقدة وتوليد النصوص الطويلة والترجمة. أخطاء التهجئة تُذكِّرنا بأن الفهم الذي تُبديه هذه الأنظمة مختلف جذرياً عن الفهم البشري: فالإنسان يتعلم الحروف قبل الكلمات، أما النموذج فيتعلم المعنى مباشرة من خلال أنماط إحصائية ضخمة دون أن يُخزّن بنية الكلمة الحرفية بالطريقة ذاتها.
يطرح هذا القيد تساؤلات أعمق حول طبيعة الذكاء الاصطناعي وحدوده. فالأنظمة التي تكتب مقالات أكاديمية متماسكة وتُصحّح أكواداً برمجية معقدة عاجزة في الوقت ذاته عن عدّ حروف كلمة بسيطة بدقة موثوقة. وهذا لا يعني فشل النموذج، بل يعني أنه مُدرَّب لأداء مهام مختلفة جوهرياً عن عمليات الفهرسة الحرفية التي تبدو بديهية للإنسان.
وفي سياق أوسع، لا تزال شركات الذكاء الاصطناعي تبحث عن حلول تقنية لتجسير هذه الهوة: من تحسين خوارزميات التجزئة إلى رموز لتكون أكثر حساسية للبنية الداخلية للكلمات، إلى دمج وحدات حسابية مساعدة متخصصة في التحقق الحرفي. غير أن الباحثين يتحفظون على تقديم وعود مبكرة، مشيرين إلى أن المشكلة تمس البنية المعمارية الأساسية لأنظمة اليوم.
في المحصلة، تُذكّرنا هذه الأخطاء الساذجة الظاهر بحقيقة جوهرية: الأنظمة الذكية الأكثر تطوراً في العالم ليست سوى آلات إحصائية قوية جداً تتعلم أنماط اللغة دون أن تُدركها بالمعنى الحرفي الأعمق. ولعل أهم درس تقدمه هذه الظاهرة هو التذكير الدائم بضرورة مراجعة مخرجات الذكاء الاصطناعي والتحقق منها، خاصةً في التفاصيل الصغيرة التي يبدو للوهلة الأولى أنها أبسط من أن تُخطئ.
المزيد من ذكاء اصطناعي

مبرمجون يرفضون العمل دون ذكاء اصطناعي ودراسات تكشف تداعيات خطيرة
دراسة METR تكشف أن معظم المطورين باتوا يرفضون العمل بلا ذكاء اصطناعي، فيما تُظهر الأرقام أن الكود المولَّد يحمل أخطاء أكثر بـ1.7 مرة مقارنة بما يكتبه البشر.

ذهان الذكاء الاصطناعي: هل فقد قادة التكنولوجيا الصلة بالواقع؟
تصاعد الجدل حول ما وصفه أرون ليفي مؤسس Box بـ'ذهان الذكاء الاصطناعي' في أوساط قادة التكنولوجيا، وسط مؤشرات متضاربة حول الجدوى الفعلية لأدوات الذكاء الاصطناعي في بيئة العمل.

جوجل تطلق مساعد الذكاء الاصطناعي الوكيل جيميني سبارك
تختبر جوجل مساعداً وكيلاً جديداً يُؤتمت مهام البريد والتقويم والتسوق والفعاليات، مع تساؤلات حول جدوى إطلاقه منتجاً مستقلاً منفصلاً عن واجهة جيميني الرئيسية.