هذه الخاصية الجديدة من DeepSeek: كيف تُحدث ثورة في فهم الذكاء الاصطناعي للعالم البصري؟

فهرس المحتويات

المقدمة: لماذا تعد هذه الخاصية الجديدة من DeepSeek نقلة نوعية؟
من النص إلى الصورة: رحلة تطور الذكاء الاصطناعي متعدد الوسائط
كيف تعمل؟ الغوص في الهندسة المعمارية لخاصية التعرف على الصور
العصف الذهني: إعادة تعريف كيفية "تفكير" النموذج
لماذا هذه الخاصية تمثل أولوية قصوى لـ DeepSeek؟
تقييم المخاطر: التحديات التي تواجه هذه التقنية
خريطة الطريق: التطورات المستقبلية المتوقعة
الأرقام تتحدث: مقارنة أداء مع النماذج الرائدة
مثال تطبيقي: كيف تعمل الخاصية في سيناريو واقعي؟
دراسة حالة: تحليل صورة معقدة خطوة بخطوة
المزايا والقيود: نظرة متوازنة
تمثيل دور: تخيل أنك النموذج
الأسئلة الشائعة
النظرة المستقبلية: ما الذي يخبئه لنا الغد؟
المراجع والمصادر

المقدمة: لماذا تعد هذه الخاصية الجديدة من DeepSeek نقلة نوعية؟

في عالم يتسارع فيه تطور الذكاء الاصطناعي بوتيرة مذهلة، كانت القدرة على "رؤية" وفهم العالم البصري تمثل أحد أعظم التحديات التي واجهت الباحثين والمطورين. هذه الخاصية الجديدة من DeepSeek، التي أطلقت رسمياً في 18 يونيو 2026، تمثل تتويجاً لجهود حثيثة استمرت لشهور، وعلامة فارقة في مسيرة الشركة نحو بناء نموذج ذكاء اصطناعي متكامل قادر على فهم العالم من حوله بكل تعقيداته[reference:0][reference:1].

ما يميز هذه الخاصية ليس كونها مجرد أداة للتعرف على الصور، بل هو الفلسفة الجديدة التي تتبناها في كيفية "تفكير" النموذج. فبدلاً من الاقتصار على وصف ما تراه العين، تسعى هذه التقنية إلى محاكاة الطريقة التي يفكر بها الإنسان عندما ينظر إلى صورة معقدة، حيث يقوم بربط العناصر ببعضها البعض، ويستخلص المعاني الضمنية، ويتخذ قرارات بناءً على ما يراه[reference:2].

هذه الخاصية الجديدة من DeepSeek لم تأت من فراغ، بل هي نتاج رحلة طويلة من البحث والتطوير، بدأت بنماذج نصية بحتة، ثم تطورت تدريجياً نحو فهم اللغة، والآن نحو فهم الصورة. إنها الخطوة الأكثر جرأة في استراتيجية الشركة لبناء ذكاء اصطناعي شامل، قادر على منافسة أكبر اللاعبين في الساحة مثل GPT-4o وGemini[reference:3]. في هذا المقال، سنأخذك في رحلة متعمقة لفهم هذه الخاصية، من جذورها التاريخية، إلى هندستها المعمارية المعقدة، وصولاً إلى تأثيرها المتوقع على مستقبل التفاعل بين الإنسان والآلة.

من النص إلى الصورة: رحلة تطور الذكاء الاصطناعي متعدد الوسائط

لم تكن رحلة الذكاء الاصطناعي نحو فهم الصور رحلة مفاجئة، بل هي تتويج لعقود من البحث والتطوير في مجالي الرؤية الحاسوبية ومعالجة اللغة الطبيعية. في البداية، كانت النماذج قاصرة على التعرف على الأشكال البسيطة، باستخدام شبكات عصبية تلافيفية (CNNs) محدودة القدرة. ثم جاءت طفرة التعلم العميق مع شبكات مثل ResNet، التي مكنت النماذج من التعرف على آلاف الفئات المختلفة من الصور بدقة متناهية[reference:4].

لكن التحدي الحقيقي كان في ربط ما تراه العين بما تفهمه اللغة. هنا برزت نماذج مثل CLIP من OpenAI، التي استطاعت لأول مرة إنشاء جسر بين الصور والنصوص، مما مهد الطريق أمام نماذج اللغة البصرية (Vision-Language Models). هذه النماذج استطاعت فهم الصور في سياق لغوي، لكنها كانت لا تزال بعيدة عن القدرة على "التفكير" البصري بالمعنى الحقيقي للكلمة[reference:5].

هذه الخاصية الجديدة من DeepSeek تمثل الجيل التالي من هذه النماذج، حيث تتجاوز مجرد ربط الصور بالنصوص، إلى محاولة فهم العلاقات المنطقية والسببية بين العناصر داخل الصورة الواحدة. هذا التطور لم يكن ليتحقق لولا التقدم الهائل في بنية النماذج المعمارية، وتوافر كميات هائلة من البيانات، والقدرات الحسابية المتزايدة التي أصبحت في متناول الباحثين[reference:6]. DeepSeek استفادت من كل هذه التطورات، وأضافت عليها لمستها الخاصة التي تتمثل في "التفكير بالوحدات البصرية الأصلية" (Thinking with Visual Primitives)، وهو مفهوم سنستعرضه بالتفصيل في الأقسام القادمة.

كيف تعمل؟ الغوص في الهندسة المعمارية لخاصية التعرف على الصور

لفهم كيفية عمل هذه الخاصية الجديدة من DeepSeek، يجب أن ننظر إلى الهندسة المعمارية التي تقف وراءها، والتي تمثل قفزة نوعية في طريقة معالجة الصور. تعتمد الخاصية على نموذج DeepSeek V4-Flash كقاعدة أساسية، وهو نموذج ضخم يضم 284 مليار معامل إجمالاً، مع تفعيل 13 مليار معامل فقط أثناء عملية الاستدلال، بفضل بنية الخبراء المختلطين (Mixture of Experts - MoE) التي تتيح كفاءة عالية في استخدام الموارد[reference:7][reference:8].

تبدأ العملية بتحويل الصورة إلى سلسلة من الرموز البصرية (Visual Tokens) باستخدام محول رؤية محسن (Vision Transformer - ViT) طورته DeepSeek خصيصاً لهذا الغرض. هذا المحول لا يقتصر على تقسيم الصورة إلى مربعات صغيرة كما تفعل النماذج التقليدية، بل يقوم بعملية ضغط ذكية تقلل عدد الرموز المطلوبة لتمثيل الصورة بشكل كبير. على سبيل المثال، صورة بأبعاد 756×756 بكسل تنتج عادة 2916 رمزاً، لكن عبر عملية ضغط 3×3 ثم استخدام آلية الانتباه المتناثر المضغوط (Compressed Sparse Attention - CSA)، يتم تقليل هذا العدد إلى 81 رمزاً فقط في ذاكرة التخزين المؤقت KV[reference:9][reference:10].

هذا الضغط الهائل، الذي يصل إلى 7056 ضعفاً، ليس مجرد توفير في المساحة، بل هو جوهر فلسفة DeepSeek في التعامل مع الصور. فبدلاً من إغراق النموذج بكمية هائلة من التفاصيل غير الضرورية، يتم استخلاص الجوهر البصري للصورة، مما يسمح للنموذج بالتركيز على ما هو مهم فعلاً. هذا النهج يختلف جذرياً عن النماذج الأخرى التي تستهلك مئات أو آلاف الرموز لصورة واحدة، حيث تستهلك Claude Sonnet 4.6 حوالي 870 رمزاً، وGemini-3-Flash حوالي 1100 رمز لنفس حجم الصورة[reference:11][reference:12].

بعد تحويل الصورة إلى هذه الرموز المضغوطة، يتم تغذيتها إلى نموذج اللغة الأساسي DeepSeek V4-Flash، الذي يقوم بمعالجتها جنباً إلى جنب مع النص المدخل من المستخدم. هنا يأتي الابتكار الحقيقي: فبدلاً من التعامل مع الرموز البصرية كمعلومات ثانوية، يتم دمجها في عملية التفكير ذاتها، حيث يمكن للنموذج أن يشير إلى مواقع محددة في الصورة باستخدام إحداثيات دقيقة، وكأنه "يشير بإصبعه" إلى جزء معين منها[reference:13].

العصف الذهني: إعادة تعريف كيفية "تفكير" النموذج

العنصر الأكثر ابتكاراً في هذه الخاصية الجديدة من DeepSeek هو ما تسميه الشركة "التفكير بالوحدات البصرية الأصلية" (Thinking with Visual Primitives). هذا المفهوم يمثل نقلة نوعية في كيفية تعامل النماذج متعددة الوسائط مع الصور. تقليدياً، كانت النماذج تعتمد على وصف الصورة باللغة الطبيعية ضمن سلسلة التفكير (Chain of Thought)، لكن هذا الأسلوب يعاني من مشكلة أساسية وهي "فجوة الإشارة" (Reference Gap)[reference:14][reference:15].

فجوة الإشارة هي الظاهرة التي يصف فيها النموذج شيئاً ما بعبارات غامضة مثل "الشيء الكبير على اليسار" أو "المنطقة الحمراء في المنتصف"، مما يؤدي إلى عدم دقة في الفهم، خاصة في المشاهد المزدحمة بالتفاصيل. هذه الخاصية الجديدة من DeepSeek تحل هذه المشكلة بدمج الإحداثيات المكانية (نقاط أو مربعات إحاطة) مباشرة في عملية التفكير نفسها، وليس فقط في المخرجات النهائية[reference:16][reference:17].

تخيل أن النموذج يقوم بالتفكير التالي أثناء تحليل صورة: "أبحث عن دب في الصورة، أجد دباً عند الإحداثيات [452,23,804,411]، إنه يتسلق شجرة، إذن ليس على الأرض. أنظر إلى أسفل اليسار، أجد دباً آخر عند [50,447,647,771]، إنه يقف على حافة صخرية، هذا هو المطلوب." في هذا المثال، الإحداثيات ليست مجرد وصف نهائي، بل هي أدوات تفكير تساعد النموذج على تتبع ما ينظر إليه بالضبط في كل خطوة من خطوات الاستدلال[reference:18].

هذه الطريقة في التفكير تحاكي بشكل كبير الطريقة التي يعمل بها الدماغ البشري، حيث يقوم الإنسان بربط ما يراه مع المواقع المكانية في ذهنه، دون الحاجة إلى وصف كل شيء بالكلمات. النتيجة هي نموذج أكثر دقة في فهم المشاهد المعقدة، وأقل عرضة للأخطاء الناتجة عن الغموض اللغوي، وأكثر قدرة على التعامل مع مهام مثل العد الدقيق، وفهم العلاقات المكانية، وتتبع الأشياء في مشاهد مزدحمة[reference:19].

لماذا هذه الخاصية تمثل أولوية قصوى لـ DeepSeek؟

لم تكن إضافة هذه الخاصية الجديدة من DeepSeek مجرد تحديث تقني عادي، بل هي خطوة استراتيجية تعكس رؤية الشركة لمستقبل الذكاء الاصطناعي. في عصر أصبحت فيه النماذج متعددة الوسائط هي المعيار الذهبي، كان غياب القدرة على فهم الصور يمثل نقطة ضعف كبيرة لـ DeepSeek مقارنة بمنافسيها مثل OpenAI وGoogle وAnthropic[reference:20]. إضافة هذه الخاصية تسد فجوة جوهرية في منتج الشركة، وتجعلها قادرة على المنافسة في سوق يتسارع فيه التطور بوتيرة غير مسبوقة[reference:21].

من الناحية العملية، تفتح هذه الخاصية آفاقاً جديدة تماماً لاستخدامات DeepSeek. فبدلاً من الاقتصار على معالجة النصوص، يمكن الآن للمستخدمين تحميل صور للمستندات، والرسوم البيانية، والخرائط، وحتى الصور الفوتوغرافية، والحصول على تحليل دقيق ومفصل. هذا يجعل الأداة أكثر فائدة في مجالات متنوعة مثل التعليم، والبحث العلمي، والهندسة، والطب، والتسويق، وغيرها الكثير[reference:22].

كما أن هذه الخاصية تمثل خطوة أولى نحو بناء نظام ذكاء اصطناعي أكثر شمولية، قادر على فهم العالم من حوله بكل تنوعه. فالقدرة على معالجة الصور هي بوابة لفهم الفيديو، والواقع المعزز، والتفاعلات البصرية المعقدة. من خلال إرساء هذا الأساس الآن، تضع DeepSeek نفسها في موقع يسمح لها بالتوسع في هذه المجالات مستقبلاً، والحفاظ على ريادتها في سباق الذكاء الاصطناعي[reference:23].

علاوة على ذلك، تأتي هذه الخاصية في وقت حساس بالنسبة للشركة، بعد فترة من التحديات المتعلقة باستقرار الفريق، حيث غادر بعض الباحثين البارزين في مجال النماذج متعددة الوسائط الشركة. إطلاق هذه الخاصية يبعث برسالة طمأنة للسوق والمستخدمين بأن DeepSeek لا تزال في طليعة الابتكار، وأن لديها القدرة على المنافسة على أعلى المستويات[reference:24].

تقييم المخاطر: التحديات التي تواجه هذه التقنية

على الرغم من الإنجاز الكبير الذي تمثله هذه الخاصية الجديدة من DeepSeek، إلا أنها لا تخلو من التحديات والمخاطر التي يجب أخذها بعين الاعتبار. أول هذه التحديات هو محدودية قاعدة المعرفة، حيث أن النموذج تم تدريبه على بيانات حتى عام 2025، مما يعني أنه قد يواجه صعوبة في التعرف على المنتجات أو الأشياء التي ظهرت بعد هذا التاريخ، وقد يخلط بين الموديلات المختلفة للسلع الجديدة[reference:25].

ثانياً، لا تزال أداء النموذج غير مستقر في بعض السيناريوهات عالية التعقيد، مثل الصور التي تحتوي على أوهام بصرية، أو المشاهد التي تتطلب عداً دقيقاً لأعداد كبيرة من الأشياء المتشابهة. في هذه الحالات، قد يقدم النموذج إجابات غير دقيقة أو حتى متناقضة، مما يشير إلى وجود ثغرات في قدرته على التعامل مع بعض أنواع التحديات البصرية[reference:26].

ثالثاً، لا تزال قدرات النموذج محدودة نسبياً، حيث يركز حالياً على فهم الصور الثابتة فقط، دون القدرة على توليد الصور، أو فهم الفيديو، أو إجراء تحويلات إبداعية بين الوسائط المختلفة. هذا يضعه في مرتبة أقل من بعض النماذج المنافسة التي تقدم مجموعة أوسع من القدرات متعددة الوسائط[reference:27]. كما أن النموذج يعاني أحياناً من تأخير في الاستجابة أو فشل في معالجة الصور خلال أوقات الذروة، مما يؤثر على تجربة المستخدم[reference:28].

رابعاً، هناك تحديات تقنية متعلقة بدقة الإحداثيات في المشاهد الدقيقة جداً، حيث قد لا تكون دقة تحديد المواقع كافية للتعامل مع التفاصيل المتناهية الصغر. كما أن قدرة النموذج على التعميم عبر مختلف أنواع الصور والسيناريوهات لا تزال بحاجة إلى تحسين، حيث قد يظهر أداءً متفاوتاً بين فئات مختلفة من الصور[reference:29].

خريطة الطريق: التطورات المستقبلية المتوقعة

بالنظر إلى المستقبل، من المتوقع أن تشهد هذه الخاصية الجديدة من DeepSeek سلسلة من التطورات والتحسينات المستمرة. أول هذه التطورات سيكون في مجال توسيع قاعدة المعرفة، حيث من المرجح أن تعمل DeepSeek على تحديث بيانات التدريب بشكل أكثر انتظاماً، لتشمل المعلومات الحديثة وتجنب مشكلة التقادم المعرفي. هذا سيمكن النموذج من التعرف على المنتجات والأشياء الجديدة بدقة أكبر[reference:30].

ثانياً، من المتوقع أن تشهد الخوارزميات المستخدمة في التعامل مع السيناريوهات عالية التعقيد تحسناً كبيراً، خاصة في مجالات مثل التعامل مع الأوهام البصرية والعد الدقيق. DeepSeek تعمل بالفعل على تحسين هذه الجوانب، ومن المرجح أن نشهد تحديثات دورية تعزز أداء النموذج في هذه المهام الصعبة[reference:31].

ثالثاً، هناك خطط طموحة لتوسيع نطاق القدرات متعددة الوسائط لتشمل توليد الصور، وفهم الفيديو، والتفاعلات الإبداعية بين الوسائط المختلفة. هذا سيجعل DeepSeek منصة متكاملة للذكاء الاصطناعي، قادرة على المنافسة مع أكبر اللاعبين في السوق على جميع الجبهات[reference:32]. كما أن تحسين استقرار النظام وقدرته على التعامل مع الأحمال العالية يعد أولوية قصوى، لضمان تجربة مستخدم سلسة حتى في أوقات الذروة[reference:33].

رابعاً، هناك توجه نحو جعل آلية التفكير بالوحدات البصرية الأصلية أكثر مرونة، بحيث لا تحتاج إلى كلمات تحفيزية محددة لتفعيلها، بل تعمل بشكل تلقائي كلما دعت الحاجة. هذا سيجعل النموذج أكثر سهولة في الاستخدام، وأكثر قدرة على التكيف مع مختلف أنواع الأسئلة والسيناريوهات[reference:34].

الأرقام تتحدث: مقارنة أداء مع النماذج الرائدة

لتقييم هذه الخاصية الجديدة من DeepSeek بشكل موضوعي، لا بد من النظر إلى الأرقام والإحصائيات التي تقارن أدائها مع النماذج الرائدة في السوق. في اختبارات counting الدقيقة، حقق نموذج DeepSeek درجة 89.2% في مقياس Pixmo-Count، متقدماً على Gemini-3-Flash التي سجلت 88.2%، وبفارق كبير عن GPT-5.4 التي سجلت 76.6%، وClaude Sonnet 4.6 التي سجلت 68.7%[reference:35].

لكن الفارق الأكبر يظهر في مهام التفكير الطوبولوجي (Topological Reasoning)، حيث تفوق نموذج DeepSeek بفارق كبير على المنافسين. في مهمة التنقل في المتاهات، سجل DeepSeek 66.9%، بينما سجل GPT-5.4 50.6%، وGemini-3-Flash 49.4%، وClaude Sonnet 4.6 48.9%، أي بفارق يقارب 17 نقطة مئوية. وفي مهمة تتبع المسارات، سجل DeepSeek 56.7% مقابل 46.5% لـ GPT-5.4[reference:36].

من ناحية الكفاءة الحسابية، تتفوق هذه الخاصية بشكل لافت، حيث تستهلك معالجة صورة بدقة 800×800 بكسل حوالي 90 رمزاً فقط (Token)، بينما تستهلك النماذج المنافسة مئات الرموز لنفس الدقة. هذا يعني أن DeepSeek أسرع في الاستجابة، وأقل تكلفة في التشغيل، وأكثر قدرة على التعامل مع الأحمال الكبيرة من الطلبات[reference:37]. هذا التفوق في الكفاءة ليس مجرد رقم، بل هو ميزة تنافسية حاسمة في عالم التطبيقات العملية حيث السرعة والتكلفة عاملان حاسمان.

من الجدير بالذكر أن هذه الأرقام تمثل أداء النموذج في ظروف مثالية، وقد تختلف النتائج في التطبيقات الواقعية تبعاً لطبيعة الصور وجودتها وتعقيدها. لكنها مع ذلك تعطي مؤشراً واضحاً على المكانة التي تحتلها هذه الخاصية بين أفضل ما تقدمه التكنولوجيا حالياً[reference:38].

مثال تطبيقي: كيف تعمل الخاصية في سيناريو واقعي؟

لفهم كيفية عمل هذه الخاصية الجديدة من DeepSeek في الممارسة العملية، دعنا نتخيل سيناريو واقعياً. لنفترض أن مستخدماً يزور متحفاً، ويلتقط صورة لقطعة أثرية غامضة لا يعرف عنها شيئاً. يقوم بتحميل الصورة إلى DeepSeek ويطلب منه التعرف عليها وتحليلها[reference:39].

في البداية، يقوم النموذج بمعالجة الصورة عبر محول الرؤية (ViT)، حيث يتم تقسيمها إلى وحدات بصرية، ثم ضغطها بشكل كبير باستخدام التقنيات المتقدمة التي طورتها DeepSeek. بعد ذلك، يبدأ النموذج عملية "التفكير بالوحدات البصرية الأصلية"، حيث يقوم بتحديد العناصر الرئيسية في الصورة، مثل شكل القطعة، والألوان، والزخارف، والكتابات إن وجدت[reference:40].

أثناء عملية التفكير، يقوم النموذج بتوليد سلسلة من الأفكار التي تجمع بين الوصف اللغوي والإحداثيات المكانية. على سبيل المثال: "أرى قطعة حجرية عند الإحداثيات [120,45,380,290]، لونها رمادي مائل للأخضر، عليها نقوش بارزة عند [200,150,280,220] تشبه الكتابة المسمارية. الحواف عند [100,30,400,310] تبدو متآكلة، مما يشير إلى قدم القطعة. الزخارف الهندسية عند [150,180,350,260] تتطابق مع النمط البابلي القديم."[reference:41]

بعد هذه العملية التحليلية، يقدم النموذج إجابة شاملة للمستخدم، تشمل وصفاً مفصلاً للقطعة، وتخميناً لعمرها وأصلها الحضاري، واستنتاجات حول وظيفتها المحتملة. كل هذا يتم في ثوانٍ معدودة، وباستخدام كمية صغيرة من الرموز مقارنة بما كانت ستستهلكه النماذج التقليدية[reference:42]. هذا المثال يوضح كيف أن هذه الخاصية ليست مجرد أداة للتعرف على الصور، بل هي أداة للفهم العميق والتحليل الذكي.

دراسة حالة: تحليل صورة معقدة خطوة بخطوة

دعنا نتعمق أكثر في دراسة حالة محددة، لنرى كيف تتعامل هذه الخاصية الجديدة من DeepSeek مع صورة معقدة. تخيل صورة لمشهد شارع مزدحم، يحتوي على العديد من العناصر المتنافسة: سيارات، مشاة، إشارات مرور، لافتات محلات، وأشجار. السؤال المطروح: "كم عدد السيارات الحمراء في الصورة، وأين تقع بالنسبة للتقاطع؟"[reference:43]

الخطوة الأولى: يقوم النموذج بمسح الصورة ضوئياً باستخدام محول الرؤية، وتحديد جميع العناصر البارزة. خلال هذه الخطوة، يتم تحويل الصورة إلى تمثيل رمزي مضغوط، مع الاحتفاظ بالمعلومات المكانية اللازمة للتحليل الدقيق[reference:44].

الخطوة الثانية: يبدأ النموذج عملية "التفكير بالوحدات البصرية الأصلية". يحدد أولاً جميع السيارات في الصورة، ويسجل إحداثيات كل منها: "سيارة عند [45,230,120,310]، سيارة عند [300,200,380,290]، سيارة عند [520,240,600,330]، سيارة عند [150,350,230,420]، سيارة عند [680,320,760,410]." ثم يقوم بتصفية السيارات الحمراء: "السيارة عند [300,200,380,290] حمراء، والسيارة عند [680,320,760,410] حمراء أيضاً."[reference:45]

الخطوة الثالثة: يقوم النموذج بتحليل العلاقات المكانية، فيحدد موقع التقاطع (مثلاً عند الإحداثيات [400,300,500,400])، ثم يقارن مواقع السيارات الحمراء به: "السيارة الحمراء الأولى عند [300,200,380,290] تقع شمال غرب التقاطع، والثانية عند [680,320,760,410] تقع جنوب شرق التقاطع."[reference:46]

الخطوة الرابعة: يقدم النموذج الإجابة النهائية: "يوجد سيارتان حمراوان في الصورة، الأولى شمال غرب التقاطع، والثانية جنوب شرق التقاطع." هذه الإجابة ليست مجرد وصف، بل هي نتاج عملية تفكير منظمة، استخدمت فيها الإحداثيات المكانية كأدوات للاستدلال، مما يضمن دقة عالية في النتيجة النهائية[reference:47].

المزايا والقيود: نظرة متوازنة

من خلال استعراضنا المتعمق لهذه الخاصية الجديدة من DeepSeek، يمكننا تلخيص المزايا والقيود بشكل متوازن. على صعيد المزايا، تبرز كفاءة استخدام الموارد كأحد أهم نقاط القوة، حيث تستهلك النموذج عدداً قليلاً جداً من الرموز مقارنة بالمنافسين، مما يعني سرعة أعلى وتكلفة أقل[reference:48]. كما أن دقة النموذج في مهام التفكير المكاني والعد تفوق بكثير ما تقدمه النماذج المنافسة، خاصة في السيناريوهات المعقدة[reference:49].

من المزايا البارزة أيضاً، فلسفة "التفكير بالوحدات البصرية الأصلية" التي تمنح النموذج قدرة فريدة على تتبع ما ينظر إليه بالضبط، مما يقلل من الأخطاء الناتجة عن الغموض اللغوي[reference:50]. كما أن استقلالية خاصية التعرف على الصور عن البحث على الإنترنت تعطي تحكماً أكبر للمستخدم في مصدر المعلومات، وتجنب التشتت الناتج عن دمج مصادر متعددة[reference:51].

أما على صعيد القيود، فإن محدودية قاعدة المعرفة حتى عام 2025 تعتبر عقبة أمام التعرف على المستجدات الحديثة[reference:52]. كما أن أداء النموذج لا يزال غير مستقر في مواجهة بعض التحديات البصرية الصعبة مثل الأوهام والعد الدقيق جداً[reference:53]. أيضاً، عدم وجود قدرات لتوليد الصور أو فهم الفيديو يضع النموذج في مرتبة أقل من بعض المنافسين الذين يقدمون مجموعة أوسع من الخدمات متعددة الوسائط[reference:54].

أخيراً، يمكن القول إن هذه الخاصية تمثل خطوة عملاقة إلى الأمام، لكنها لا تزال في مراحلها الأولى، مع وجود مجال واسع للتحسين والتطوير. التوازن بين المزايا والقيود يشير إلى أن DeepSeek تسير في الاتجاه الصحيح، مع وعي كامل بالتحديات التي يجب التغلب عليها في المراحل القادمة.

تمثيل دور: تخيل أنك النموذج

لنقم بتجربة تمثيل دور فريدة، حيث نتخيل أننا النموذج نفسه أثناء معالجة صورة معقدة. تخيل أنك نموذج DeepSeek، وقد استلمت للتو صورة لغابة كثيفة، مع سؤال: "هل توجد حيوانات مفترسة في هذه الصورة؟" تبدأ عملية التفكير لديك بهدوء ومنهجية[reference:55].

الخطوة الأولى في تفكيرك: "أقوم بمسح الصورة ضوئياً، وتقسيمها إلى شبكة من الوحدات البصرية. أرى الكثير من الأشجار والأوراق، لكنني أركز على البحث عن أنماط معينة تشير إلى وجود حيوانات. أستخدم معرفتي المسبقة بأن الحيوانات المفترسة غالباً ما تكون مختبئة بين الأغصان، أو تظهر عيونها بشكل مميز."[reference:56]

الخطوة الثانية: "أحدد نقطة اشتباه عند الإحداثيات [230,450,310,520]، حيث يبدو أن هناك شكلاً غير منتظم بين الأغصان. أكبر الصورة ذهنياً في تلك المنطقة، وألاحظ وجود عينين لامعتين عند [260,480,270,490]. هذه إشارة قوية على وجود حيوان."[reference:57]

الخطوة الثالثة: "أحاول تحديد نوع الحيوان. بناءً على شكل العينين والفراء المرئي عند [240,470,290,510]، يبدو أنه نمر. أقوم بالتحقق من وجود أي حيوانات أخرى، فأجد شكلاً آخر عند [550,320,620,400]، لكن بعد التحليل أكتشف أنه مجرد صخرة كبيرة. أؤكد وجود النمر عند [230,450,310,520]."[reference:58]

الخطوة الرابعة: "أصوغ الإجابة: 'نعم، توجد حيوانات مفترسة في هذه الصورة. لقد حددت نمراً مختبئاً بين الأشجار في الجزء الأوسط السفلي من الصورة.' أرفق الإجابة بإحداثيات دقيقة لمكان النمر، حتى يتمكن المستخدم من تحديد موقعه بسهولة." هذه العملية برمتها تتم في ثوانٍ، لكنها تعكس مستوى متقدماً من التفكير المنظم والدقيق[reference:59].

الأسئلة الشائعة

س: ما هو الفرق بين خاصية التعرف على الصور من DeepSeek والخصائص المماثلة في نماذج أخرى؟

ج: الفرق الجوهري يكمن في فلسفة "التفكير بالوحدات البصرية الأصلية"، حيث يقوم النموذج بدمج الإحداثيات المكانية في عملية التفكير نفسها، وليس فقط في المخرجات النهائية. هذا يمنحه دقة فائقة في فهم العلاقات المكانية والعد، مع كفاءة عالية في استخدام الموارد حيث يستهلك رموزاً أقل بكثير من المنافسين[reference:60].

س: هل خاصية التعرف على الصور متاحة لجميع المستخدمين؟

ج: نعم، تم الإعلان رسمياً عن إطلاق الخاصية في 18 يونيو 2026، وهي متاحة الآن لجميع المستخدمين على منصتي الويب والتطبيق. لكن قد تواجه بعض الإصدارات القديمة من التطبيق رسالة "خاصية فهم الصور قيد الاختبار الداخلي"[reference:61][reference:62].

س: هل يمكن للنموذج التعرف على النصوص داخل الصور؟

ج: نعم، النموذج قادر على التعرف على النصوص واستخراجها من الصور، لكن التركيز الأساسي للخاصية هو فهم المحتوى البصري والعلاقات المكانية، وليس مجرد استخراج النصوص مثل أدوات OCR التقليدية[reference:63].

س: ما هي أنواع الصور التي يمكن للنموذج معالجتها؟

ج: يمكن للنموذج معالجة مجموعة واسعة من الصور، بما في ذلك الصور الفوتوغرافية، والرسوم البيانية، والخرائط، والمستندات الممسوحة ضوئياً، والرسومات التوضيحية. لكنه لا يدعم حالياً معالجة الفيديو أو توليد الصور[reference:64].

س: هل تعمل خاصية التعرف على الصور بدون اتصال بالإنترنت؟

ج: لا، الخاصية تتطلب اتصالاً بالإنترنت للعمل، حيث تتم معالجة الصور على خوادم DeepSeek السحابية. لكنها لا تعتمد على البحث على الإنترنت بشكل افتراضي، مما يمنح المستخدم تحكماً أكبر في مصدر المعلومات[reference:65].

النظرة المستقبلية: ما الذي يخبئه لنا الغد؟

بالنظر إلى المستقبل، من المتوقع أن تشهد هذه الخاصية الجديدة من DeepSeek تطورات هائلة في السنوات القادمة. أول هذه التطورات سيكون في مجال توسيع نطاق الفهم البصري ليشمل الفيديو، حيث سيكون النموذج قادراً على تحليل المشاهد المتحركة وفهم التسلسل الزمني للأحداث. هذا سيفتح آفاقاً جديدة في مجالات مثل المراقبة الأمنية، وتحليل الحركة الرياضية، والتفاعلات الاجتماعية المعقدة[reference:66].

ثانياً، من المتوقع أن تتوسع قدرات النموذج لتشمل توليد الصور، مما سيحوله إلى أداة إبداعية متكاملة، قادرة على إنشاء محتوى بصري جديد بناءً على أوصاف نصية. هذا سيجعل DeepSeek منافساً مباشراً لأنظمة مثل DALL-E وMidjourney، مع ميزة إضافية تتمثل في الفهم العميق للسياق البصري[reference:67].

ثالثاً، سيشهد مجال التفاعل بين الوسائط المختلفة تطوراً كبيراً، حيث سيكون النموذج قادراً على الانتقال بسلاسة بين النص والصورة والصوت والفيديو، مما يخلق تجارب تفاعلية غنية لم تكن ممكنة من قبل. تخيل أن تكون قادراً على التحدث إلى النموذج عن صورة، فيرد عليك بصوت، ويعرض لك رسوماً بيانية توضيحية، كل ذلك في تفاعل واحد سلس[reference:68].

رابعاً، من المتوقع أن تشهد كفاءة النموذج تحسناً مستمراً، مع تقليل زمن الاستجابة وزيادة دقة الإحداثيات في المشاهد الدقيقة. كما ستعمل DeepSeek على توسيع قاعدة المعرفة بشكل مستمر، لتشمل أحدث المعلومات وتجنب مشكلة التقادم المعرفي[reference:69]. كل هذه التطورات ستجعل من DeepSeek منصة ذكاء اصطناعي شاملة، قادرة على منافسة أكبر اللاعبين في السوق على جميع الجبهات.

المراجع والمصادر

IT之家. (2026, June 18). DeepSeek识图模式正式上线App和网页端. https://www.ithome.com/0/966/066.htm[reference:70][reference:71]
科技日报. (2026, May 14). DeepSeek开放识图模式 AI装上了“赛博手指”. https://www.ncsti.gov.cn/kjdt/kjrd/202605/t20260514_246641.html[reference:72]
太平洋科技. (2026, May 1). DeepSeek公开新技术了！多模态模型技术报告公布：超越GPT-5.4. https://g.pconline.com.cn/x/2142/21428411.html[reference:73]
智东西. (2026, April 30). DeepSeek“开眼”背后的技术，公开了！ https://m.zhidx.com/p/555086.html[reference:74]
36氪. (2026, April 30). DeepSeek多模态技术范式公布，以视觉原语思考. https://36kr.com/p/3789208597372165[reference:75]
DeepTech深科技. (2026, April 29). DeepSeek多模态真的来了？识图模式已开始小范围灰度. http://www.163.com/dy/article/KRMS52V105119734.html[reference:76]
DeepSeek. (2026). Thinking with Visual Primitives (Technical Report). GitHub. https://github.com/deepseek-ai/Thinking-with-Visual-Primitives[reference:77][reference:78]