یادداشت‌های هوش مصنوعی سادری

🌐 تقریباً هر زمان که بخوام با یک مدل درباره موضوعات فنی صحبت کنم، سراغ انگلیسی میرم. اوایل این کار رو برای گرفتن جواب بهتر انجام می‌دادم و البته توضیح دادن موضوعات فنی به انگلیسی هم راحت‌تر بود. بعد کم‌کم تبدیل به عادت شد و رفتم ببینم این عادت درست هست یا نه که به چند چیز جالب رسیدم.

اول از همه اینکه تقریباً تمام مدل‌های بزرگ روی حجم عظیمی از محتوای انگلیسی آموزش دیده‌اند و بخش بزرگی از مستندات، کدها، مقالات و بحث‌های فنی اینترنت هم به زبان انگلیسی هستند.

از اون مهم‌تر، تقریباً توی همه هارنس‌ها System Prompt و پرامپت‌های داخلی به زبان انگلیسی نوشته شده. یعنی شما از همون لحظه اول دارید با سیستمی کار می‌کنید که تقریباً همه اجزاش حول زبان انگلیسی ساخته شده‌اند.

یه نکته دیگه هم اینه که مدل‌ها کلمات رو «درک» نمی‌کنن. متن تبدیل به توکن میشه و تمام پردازش پشت صحنه روی همین توکن‌ها انجام میشه. طبیعتاً هر زبانی که توی داده‌های آموزشی، فرایند آموزش و ارزیابی مدل حضور پررنگ‌تری داشته باشه، معمولاً خروجی بهتری هم میده.

از اون طرف، بخش بزرگی از Safety Training، Preference Tuning و حتی Benchmark Testing مدل‌ها هم به زبان انگلیسی انجام میشه. برای همین خیلی عجیب نیست که مدل‌ها توی خیلی از کارهای فنی روی انگلیسی عملکرد بهتری داشته باشن.

این به این معنی نیست که مدل‌ها فارسی بلد نیستن؛ اتفاقاً فارسی‌شون هر روز بهتر میشه. اما وقتی پای بحث‌های فنی وسط باشه، هنوز هم انگار زبان مادری‌شون انگلیسیه 😁

📝 در ادامه، یه نکته رو هم بگم:

با وجود اینکه معمولاً برای کارهای فنی با مدل‌ها انگلیسی حرف می‌زنم، انگلیسی من اصلاً در حدی نیست که ادعا کنم بدون اشتباه می‌نویسم. مخصوصاً وقتی پرامپت طولانی میشه یا میخوام یه مسئله پیچیده رو توضیح بدم.

برای همین یه Agent جدا دارم که هیچ کار خاصی نمی‌کنه، نه کد می‌نویسه، نه تحلیل می‌کنه و نه جواب فنی میده. تنها وظیفه‌اش اینه که متن رو از نظر گرامری و املایی بررسی کنه و نسخه تمیزتری تحویل بده.

معمولاً پرامپت‌های طولانی رو اول به اون Agent میدم، بعد خروجی اصلاح‌شده رو به Agent اصلی میدم که قراره کار فنی انجام بده. اینطوری احتمال اینکه به خاطر انگلیسی افتضاح من موضوع رو اشتباه متوجه بشه کمتر میشه.

فایل AGENTS.md که برای این Agent استفاده می‌کنم رو هم اینجا می‌ذارم.