متخصص في التعلم الآلي. كيف يساعد التعلم الآلي البنوك وأنظمة الدفع في مهمتين رئيسيتين

اليوم، وصل الاهتمام بأخصائيي تحليل البيانات إلى درجة أن الشخص الأكثر تواضعًا فقط هو الذي لن يطلق على نفسه اسم عالم البيانات إذا كان قد تدرب مرتين على الأقل على الانحدار اللوجستي أو مجموعات الأشجار. إن تحليل البيانات والتعلم الآلي على وجه الخصوص ليسا مجرد كلمات لطيفة. هذا هو السحر الحقيقي الذي يمكن أن يحول العالم من حولنا، وفي Yandex، يمكنك الدخول فيه حقًا، والتعرف على أشخاص أقوياء في هذا، والتعلم وتعلم كيفية القيام بالكثير من الأشياء الجديدة.

إذا كنت تفهم بالفعل أن نماذج تصنيف التدريب والانحدار والتجميع والتصنيف لها فوائد قابلة للقياس للخدمات التي تستخدم هذه النماذج ومستخدميها النهائيين، فإن النموذج لا "يتنبأ بالهدف" فحسب، بل يعمل على تحسين بعض المقاييس المهمة للتوافق معها أعمال الأهداف، فمن المحتمل أن تكون مهتمًا بنا. إذا لم تتح لك الفرصة بعد للمشاركة في بناء اتصال بين التعلم الآلي واحتياجات العمل، ولكنك ترغب حقًا في ذلك، فإن هذه الوظيفة الشاغرة تستحق اهتمامك أيضًا.

يتم إنشاء مجموعة في Yandex.Taxi ستقوم بتنفيذ أساليب التعلم الآلي في أكبر خدمة سيارات الأجرة في روسيا. نحن بحاجة إلى محللين:

  • يعشقون تحليل البيانات ويعرفون المبادئ والأساليب الأساسية للتعلم الآلي (يمكن التمييز بين التجهيز الزائد وعدم التجهيز، وانحدار السجل من SVM، والتعزيز من التعبئة، والدقة من الدقة)؛
  • فهم لماذا يحتاج المحلل إلى إحصائيات رياضية؛
  • يريدون أن يؤثر عملهم على ملايين الرحلات التي يقوم بها مستخدمونا كل أسبوع.

المتطلبات الإلزامية:

  • معرفة الإحصاء الرياضي ونظرية الاحتمالات.
  • معرفة طرق التعلم الخاضعة للإشراف الأكثر شيوعًا (النماذج الخطية، مجموعات الأشجار، kNN، مصنف Naive Bayes) وفهم الحالات التي يكون من المناسب استخدامها وكيفية تشخيص عملها؛
  • معرفة مقاييس الجودة شائعة الاستخدام في التعلم الآلي، وفهم الاختلافات بينها، والقدرة على تفسير قيم المقاييس المختلفة؛
  • تدريب فني جيد: الاستخدام الواثق للغة Python والإلمام بالمكتبات للعمل مع البيانات - numpy وscipy وmatplotlib وpandas وsklearn والخبرة في استخدام xgboost وwowpal wabbit؛
  • معرفة اللغة الإنجليزية على مستوى قراءة الأدبيات التقنية.

مرحباً:

  • التعليم الرياضي أو الفني العالي.
  • خبرة في حل المشاكل في مجال تحليل البيانات والتعلم الآلي؛
  • الخبرة في تطبيق الإحصائيات الرياضية التطبيقية، على سبيل المثال، تقييم فترات الثقة للمؤشرات المستهدفة، والأهمية الإحصائية لنتائج اختبار A/B؛
  • فهم كيف يمكن تقييم التأثير الاقتصادي المحتمل لتنفيذ نموذج قائم على التعلم الآلي وكيف يمكن ربط مقاييس الجودة بهذا التأثير؛
  • فهم كيفية تقييم جودة النماذج خارج الإنترنت (باستخدام البيانات التاريخية) وعبر الإنترنت (في الإنتاج)؛
  • مقدمة لنظام التشغيل Linux؛
  • مقدمة لتخفيض الخريطة؛
  • معرفة الخوارزميات الكلاسيكية وهياكل البيانات؛
  • معرفة SQL؛
  • القدرة على قراءة كود C++؛
  • خبرة في منصب مماثل.

يحتل التعلم الآلي مكانة متزايدة الأهمية في حياتنا كل يوم بسبب النطاق الهائل لتطبيقاته. من تحليل حركة المرور إلى السيارات ذاتية القيادة، يتم نقل المزيد والمزيد من المهام إلى آلات التعلم الذاتي.

في بعض الأحيان ليس لدينا أي فكرة عن كيفية عمل بعض التطبيقات القائمة على أساليب التعلم الآلي. لنفترض أنه لا أحد يستطيع الإجابة على السؤال "لماذا ظهر لي الموقع (أ) في الإعلانات اليوم وليس (ب)؟" أتعس ما في هذا الموقف برمته هو أن معظم الناس لديهم فكرة خاطئة عن التعلم الآلي.

استهلالي

يعتبر التعلم الآلي فرعًا من فروع الذكاء الاصطناعي، وتتمثل فكرته الرئيسية في أن يستخدم الكمبيوتر خوارزمية مكتوبة مسبقًا ليس فقط، بل أن يتعلم كيفية حل مشكلة معينة.

يمكن تصنيف أي تقنية فعالة للتعلم الآلي تقريبًا إلى واحد من ثلاثة مستويات من التوفر. المستوى الأول هو عندما يكون متاحًا فقط لمختلف عمالقة التكنولوجيا مثل Google أو IBM. المستوى الثاني هو عندما يمكن استخدامه من قبل طالب لديه بعض المعرفة. المستوى الثالث هو عندما تكون الجدة قادرة على التعامل معها.

يقع التعلم الآلي الآن عند تقاطع المستويين الثاني والثالث، وبالتالي فإن سرعة تغيير العالم بمساعدة هذه التكنولوجيا تنمو كل يوم.

التعلم الخاضع للإشراف وغير الخاضع للإشراف

يمكن تقسيم معظم مهام التعلم الآلي إلى التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف. إذا تخيلت مبرمجًا يحمل سوطًا في إحدى يديه وقطعة من السكر في اليد الأخرى، فأنت مخطئ بعض الشيء. يشير "المعلم" هنا إلى فكرة التدخل البشري في معالجة البيانات. في التعلم الخاضع للإشراف، لدينا بيانات للتنبؤ بشيء ما وبعض الفرضيات. في التعلم غير الخاضع للرقابة، لدينا فقط البيانات التي نريد العثور على خصائصها. في الأمثلة سترى الفرق أوضح قليلاً.

التدريب المدروس

لدينا بيانات عن 10.000 شقة في موسكو، ونعرف مساحة كل شقة، وعدد الغرف، والطابق الذي تقع عليه، والمساحة، ومدى توفر مواقف السيارات، والمسافة إلى أقرب محطة مترو، و قريباً. بالإضافة إلى ذلك، تكلفة كل شقة معروفة. مهمتنا هي بناء نموذج يتنبأ، بناءً على هذه الخصائص، بتكلفة الشقة. هذا مثال كلاسيكي على التعلم الخاضع للإشراف، حيث لدينا بيانات (10000 شقة ومعلمات مختلفة لكل شقة، تسمى الميزات) وردود الفعل (سعر الشقة). تسمى هذه المهمة مشكلة الانحدار. سنتحدث عن ماهية هذا بعد قليل.

أمثلة أخرى: توقع ما إذا كان المريض مصابًا بالسرطان بناءً على مؤشرات طبية مختلفة. أو، استنادًا إلى نص رسالة البريد الإلكتروني، توقع احتمالية كونها بريدًا عشوائيًا. مثل هذه المهام مشاكل التصنيف.

التعلم غير الخاضع للرقابة

ويكون الوضع أكثر إثارة للاهتمام مع التعلم غير الخاضع للرقابة، حيث لا نعرف "الإجابات الصحيحة". أخبرنا ببيانات عن طول ووزن عدد معين من الأشخاص. ومن الضروري تجميع البيانات في 3 فئات لإنتاج قميص بالحجم المناسب لكل فئة من الأشخاص. تسمى هذه المهمة مشكلة التجميع.

مثال آخر هو الموقف عندما يتم وصف كل كائن بـ 100 سمة، على سبيل المثال. المشكلة في مثل هذه البيانات هي أنه من الصعب إنشاء رسم توضيحي لهذه البيانات، بعبارة ملطفة، حتى نتمكن من تقليل عدد الميزات إلى اثنتين أو ثلاث. ومن ثم يمكنك تصور البيانات على مستوى أو في الفضاء. مثل هذه المهمة تسمى مهمة تخفيض البعد.

فئات مشاكل التعلم الآلي

في القسم السابق، قدمنا ​​عدة أمثلة لمشاكل التعلم الآلي. سنحاول في هذا تعميم فئات هذه المهام، مع إرفاق القائمة بأمثلة إضافية.

  • مشكلة الانحدار: بناء على علامات مختلفة، توقع إجابة حقيقية. بمعنى آخر، يمكن أن تكون الإجابة 1، 5، 23.575 أو أي رقم حقيقي آخر، والذي، على سبيل المثال، يمكن أن يمثل تكلفة الشقة. أمثلة: التنبؤ بسعر السهم خلال ستة أشهر، والتنبؤ بربح أحد المتاجر في الشهر المقبل، والتنبؤ بجودة النبيذ في اختبار أعمى.
  • مشكلة التصنيف: بناءً على الميزات المختلفة، توقع إجابة قاطعة. بمعنى آخر، هناك عدد محدود من الإجابات في مثل هذه المهمة، كما في حالة تحديد ما إذا كان المريض مصابًا بالسرطان أو تحديد ما إذا كانت رسالة البريد الإلكتروني غير مرغوب فيها. أمثلة: التعرف على النص بناءً على إدخال الكتابة اليدوية، وتحديد ما إذا كان هناك شخص أو قطة في الصورة.
  • مشكلة التجميع: تقسيم البيانات إلى فئات مماثلة. أمثلة: تقسيم عملاء المشغل الخلوي حسب الملاءة، وتقسيم الأجسام الفضائية إلى أجسام متشابهة (المجرات والكواكب والنجوم وما إلى ذلك).
  • مشكلة تقليل الأبعاد: تعلم كيفية وصف بياناتنا ليس باستخدام ميزات N، ولكن برقم أصغر (عادةً 2-3 للتصور اللاحق). أحد الأمثلة التي تتجاوز الحاجة إلى التصور هو ضغط البيانات.
  • مهمة الكشف عن الشذوذ: بناء على العلامات، تعلم كيفية التمييز بين الحالات الشاذة و "غير الشاذة". ويبدو أن هذه المهمة لا تختلف عن مهمة التصنيف. لكن خصوصية تحديد الحالات الشاذة هي أنه إما أن لدينا أمثلة قليلة جدًا أو معدومة على الحالات الشاذة لتدريب النموذج، لذلك لا يمكننا حل مشكلة مثل مشكلة التصنيف. مثال: الكشف عن معاملات البطاقة المصرفية الاحتيالية.

الشبكات العصبية

هناك عدد كبير من الخوارزميات في التعلم الآلي، وبعضها عالمي تمامًا. تشمل الأمثلة أجهزة ناقل الدعم، أو تعزيز أشجار القرار، أو نفس الشبكات العصبية. لسوء الحظ، لدى معظم الناس فكرة غامضة إلى حد ما عن جوهر الشبكات العصبية، وينسبون إليها خصائص لا يمتلكونها.

الشبكة العصبية (أو الشبكة العصبية الاصطناعية) هي شبكة من الخلايا العصبية حيث تكون كل خلية عصبية نموذجًا رياضيًا لخلية عصبية حقيقية. بدأت الشبكات العصبية تحظى بشعبية كبيرة في الثمانينيات وأوائل التسعينيات، لكن شعبيتها انخفضت بشكل ملحوظ في أواخر التسعينيات. ومع ذلك، فهي في الآونة الأخيرة واحدة من التقنيات المتقدمة المستخدمة في التعلم الآلي، وتستخدم في عدد كبير من التطبيقات. سبب عودة الشعبية بسيط: زيادة قوة الحوسبة لأجهزة الكمبيوتر.

باستخدام الشبكات العصبية، يمكنك على الأقل حل مشاكل الانحدار والتصنيف وبناء نماذج معقدة للغاية. دون الخوض في التفاصيل الرياضية، يمكننا القول أنه في منتصف القرن الماضي، أثبت أندريه نيكولايفيتش كولموغوروف أنه باستخدام الشبكة العصبية، من الممكن تقريب أي سطح بأي دقة.

في الواقع، الخلية العصبية في الشبكة العصبية الاصطناعية هي وظيفة رياضية (على سبيل المثال، وظيفة سينية)، والتي تتلقى بعض القيمة كمدخلات والمخرجات هي القيمة التي يتم الحصول عليها باستخدام نفس الوظيفة الرياضية.

حدود الشبكات العصبية

ومع ذلك، لا يوجد شيء سحري في الشبكات العصبية، وفي معظم الحالات، لا أساس للمخاوف بشأن سيناريو Terminator. لنفترض أن العلماء قاموا بتدريب شبكة عصبية للتعرف على الأرقام المكتوبة بخط اليد (يمكن استخدام مثل هذا التطبيق، على سبيل المثال، في مكتب البريد). كيف يمكن أن يعمل مثل هذا التطبيق ولماذا لا يوجد ما يدعو للقلق؟

لنفترض أننا نعمل مع صور مقاس 20 × 20 بكسل، حيث يتم تمثيل كل بكسل بظل رمادي (256 قيمة محتملة في المجموع). كإجابة لدينا أحد الأرقام: من 0 إلى 9. سيكون هيكل الشبكة العصبية على النحو التالي: في الطبقة الأولى سيكون هناك 400 خلية عصبية، حيث ستكون قيمة كل خلية عصبية مساوية لكثافة البكسل المقابل. ستحتوي الطبقة الأخيرة على 10 خلايا عصبية، حيث سيكون لكل خلية عصبية احتمال أن يتم رسم الرقم المقابل على الصورة الأصلية. سيكون بينهما عدد معين من الطبقات (تسمى هذه الطبقات مخفية) مع نفس عدد الخلايا العصبية، حيث ترتبط كل خلية عصبية بخلية عصبية من الطبقة السابقة وليس أكثر.

ستتوافق حواف الشبكة العصبية (الموضحة على شكل أسهم في الصورة) مع بعض الأرقام. علاوة على ذلك، سيتم حساب القيمة الموجودة في الخلية العصبية بالمبلغ التالي: قيمة الخلية العصبية من الطبقة السابقة * قيمة الحافة التي تربط الخلايا العصبية. ثم تؤخذ من هذا المجموع دالة معينة (مثلا الدالة السيني التي تحدثنا عنها سابقا).

في النهاية، تتمثل مهمة تدريب الشبكة العصبية في تحديد مثل هذه القيم في الحواف بحيث من خلال إعطاء شدة البكسل للطبقة الأولى من الشبكة العصبية، نتلقى في الطبقة الأخيرة احتمالات رسم بعض الأرقام على صورة.

بعبارات أبسط، في هذه الحالة، الشبكة العصبية هي حساب دالة رياضية، حيث تكون الوسيطات عبارة عن وظائف رياضية أخرى تعتمد على وظائف رياضية أخرى وما إلى ذلك. بالطبع، مع مثل هذا الحساب للوظائف الرياضية، حيث يتم تعديل بعض الحجج، لا يمكن الحديث عن أي خطر وجودي.

فيما يلي بعض الأمثلة المثيرة للاهتمام وغير الواضحة تمامًا لاستخدام التعلم الآلي في الحياة الواقعية.

على سبيل المثال، فاز في الحملة الانتخابية الثانية لباراك أوباما أفضل فريق لعلم البيانات في ذلك الوقت. بالطبع، نحن لا نتحدث عن حقيقة أنهم نصحوه بالكذب بشأن شيء ما، وقد تم تنظيم العمل بطريقة أكثر ذكاءً: لقد اختاروا الحالة التي أمام أي جمهور، وفي أي يوم وفي أي موضوع؛ يجب أن يتكلم. علاوة على ذلك، في كل مرة قاموا بقياس مدى تأثير ذلك على استطلاعات الرأي مثل "لمن ستصوت إذا كانت الانتخابات يوم الأحد المقبل؟" وبعبارة أخرى، لم يتم اتخاذ مثل هذه القرارات من قبل الاستراتيجيين السياسيين، ولكن من قبل محللي البيانات حصرا. ويصبح هذا مثيرًا للاهتمام بشكل خاص في ضوء حقيقة أنه، وفقًا للخبراء، منحه هذا ميزة بنسبة 8-10٪.

بالإضافة إلى ذلك، من الصعب جدًا تخيل الإنترنت الحديث دون إعادة الاستهداف أو الإعلانات المخصصة. تذكر: اخترت منتجًا على الإنترنت، وبعد شرائه، لمدة أسبوعين آخرين يتم عرضه في أنواع مختلفة من الإعلانات. في إحدى خطاباته، قدم مدير تسويق خدمات ياندكس، أندريه سيبران، النصائح التالية في هذا الشأن:

أنا أعطيك اختراق الحياة. بعد أن تشتري فأسًا، لتجنب النظر إلى الفؤوس لمدة أسبوعين آخرين، اذهب إلى متجر الأزياء. بعد ذلك، اعتمادًا على تفضيلاتك الجنسية، انتقل إلى الملابس الداخلية للرجال أو النساء. قم برمي بعض العناصر في السلة، وأغلق السلة وابتعد. هؤلاء الرجال لديهم ميزانيات كبيرة جدًا لإعادة الاستهداف: خلال الأسبوعين المقبلين، اعتمادًا على تفضيلاتك، سيتم ملاحقتك إما من قبل رجال وسيمين يرتدون ملابس ضيقة أو نساء جميلات يرتدين ملابس ضيقة. إنه أفضل من الفأس.

إذا كانت لديك رغبة في دراسة تقنيات التعلم الآلي، فمن الجدير بالذكر أنه لدراسة الموضوع بعمق مع فهم الأساس بأكمله، يجب عليك على الأقل فهم التحليل الرياضي والجبر الخطي وطرق التحسين (مع التركيز على الأخيرين ). بالإضافة إلى ذلك، يُنصح بمعرفة أساسيات البرمجة وبعض لغات البرمجة. يستخدم التعلم الآلي عادةً لغة R أو Python أو Matlab.

بالنسبة للتعلم الأساسي للغاية، تعد دورة التعلم الآلي الكلاسيكية التي يقدمها Andrew Eng على Coursera مثالية. ميزتها الرئيسية هي توجهها العملي الاستثنائي، ولا يتطلب هذا المقرر على الإطلاق قدرًا كبيرًا من المعرفة الرياضية.

يمكنك تحفيز دراستها بالطريقة التالية: انظر إلى المنهج الدراسي. إذا شاهدت جميع المحاضرات وقمت بحل جميع الواجبات، فمن المؤكد أنك ستتمكن من تطبيق كل هذه الأشياء عمليًا. على وجه الخصوص، سوف تتقن خوارزميات الانحدار الخطي (مشكلة الانحدار)، والانحدار اللوجستي، وآلة ناقل الدعم، والشبكات العصبية (مشكلة التصنيف)، والوسائل K (التجميع)، وPCA (تقليل الأبعاد)، واكتشاف الشذوذ وتعلم كيفية البناء نظام التوصيات (منتجات التوصية التي تقوم بتقييمها، مثل الأفلام أو الأغاني). وفي الأسبوع الأخير من الدورة، سيتم تعليمك أيضًا كيفية بناء نظام يمكنه العثور على الكتابة في الصور وفك تشفيرها أو التعرف على الأشخاص.

بالنسبة لأولئك الذين يرغبون في دراسة الموضوع بكل التفاصيل الرياضية في أفضل تقاليد الجامعات التقنية القوية، يمكننا أن نوصي بدورة من المدرسة العليا للاقتصاد أو تخصص من MIPT. نلاحظ فقط أن التخصص مدفوع، وللوصول إليه سيتعين عليك الاشتراك بحوالي 3000 روبل شهريًا. ومع ذلك، هناك فترة مجانية مدتها 7 أيام.

علينا أن نتعامل مع تحديات تسجيل ومعالجة طلبات العملاء كل يوم. على مدى سنوات عديدة من العمل، قمنا بتجميع عدد كبير من الحلول الموثقة، وتساءلنا كيف يمكننا استخدام هذا الكم من المعرفة. لقد حاولنا تجميع قاعدة معرفية واستخدام البحث المدمج في Service Desk، ولكن كل هذه التقنيات تتطلب الكثير من الجهد والموارد. ونتيجة لذلك، استخدم موظفونا محركات البحث على الإنترنت في كثير من الأحيان أكثر من الحلول الخاصة بهم، والتي، بطبيعة الحال، لا يمكننا ترك الأمر على هذا النحو. وقد جاءت التقنيات التي لم تكن موجودة قبل 5 إلى 10 سنوات لإنقاذنا، لكنها الآن منتشرة على نطاق واسع. يتعلق الأمر بكيفية استخدامنا للتعلم الآلي لحل مشكلات العملاء. استخدمنا خوارزميات التعلم الآلي في مهمة البحث عن حوادث مماثلة حدثت بالفعل من قبل، وذلك لتطبيق حلولها على حوادث جديدة.

مهمة مشغل مكتب المساعدة

مكتب المساعدة (مكتب الخدمة) هو نظام لتسجيل ومعالجة طلبات المستخدمين التي تحتوي على وصف للأعطال الفنية. تتمثل مهمة مشغل مكتب المساعدة في معالجة مثل هذه الطلبات: فهو يعطي تعليمات لاستكشاف الأخطاء وإصلاحها أو إصلاحها شخصيًا عبر الوصول عن بعد. ومع ذلك، يجب أولا وضع وصفة للقضاء على المشكلة. في هذه الحالة، يمكن للمشغل:

  • استخدم قاعدة المعرفة.
  • استخدم البحث المدمج في مكتب الخدمة.
  • اتخذ القرار بنفسك، بناءً على تجربتك.
  • استخدم محرك بحث الشبكة (Google، Yandex، إلخ).

لماذا كان التعلم الآلي ضروريًا؟

ما هي المنتجات البرمجية الأكثر تطوراً التي يمكننا استخدامها:

  • مكتب الخدمةعلى 1C: منصة المؤسسة.
  • لا يوجد سوى وضع البحث اليدوي: عن طريق الكلمات الرئيسية، أو باستخدام البحث عن النص الكامل. هناك قواميس للمرادفات، والقدرة على استبدال الحروف بالكلمات، وحتى استخدام العوامل المنطقية. ومع ذلك، فإن هذه الآليات غير مجدية عمليًا مع هذا الحجم من البيانات مثل بياناتنا - هناك العديد من النتائج التي تلبي الطلب، ولكن لا يوجد فرز فعال حسب الصلة. هناك قاعدة معرفية تتطلب جهدًا إضافيًا لدعمها، كما أن البحث فيها معقد بسبب إزعاج الواجهة والحاجة إلى فهم فهرستها.من الأطلسي.
  • أشهر مكاتب الخدمة الغربية هو نظام ذو بحث متقدم مقارنة بمنافسيه. هناك ملحقات مخصصة تدمج ميزة تصنيف البحث BM25 التي استخدمها Google في محرك البحث الخاص به حتى عام 2007. يعتمد نهج BM25 على تقييم "أهمية" الكلمات في الرسائل بناءً على تكرار حدوثها. كلما كانت الكلمة المطابقة نادرة، زاد تأثيرها على كيفية فرز النتائج. يتيح لك ذلك تحسين جودة البحث إلى حد ما مع حجم كبير من الطلبات، لكن النظام غير مهيأ لمعالجة اللغة الروسية، وبشكل عام، النتيجة غير مرضية.محركات البحث على الإنترنت.
يستغرق البحث عن الحلول في حد ذاته في المتوسط ​​من 5 إلى 15 دقيقة، ولا يتم ضمان جودة الإجابات، كما لا يتم ضمان توفرها. يحدث أن تحتوي مناقشة طويلة في المنتدى على عدة تعليمات طويلة، ولا يوجد أي منها مناسب، ويستغرق التحقق منها يومًا كاملاً (قد يستغرق هذا وقتًا طويلاً دون ضمان النتائج).

تتمثل الصعوبة الرئيسية في البحث حسب محتوى الطلبات في أن أعراض الأخطاء المتطابقة بشكل أساسي موصوفة بكلمات مختلفة. بالإضافة إلى ذلك، غالبًا ما تحتوي الأوصاف على لغة عامية وأخطاء نحوية وأشكال بريدية، لأن... يتم استلام معظم الطلبات عبر البريد الإلكتروني. تستسلم أنظمة مكتب المساعدة الحديثة لمثل هذه الصعوبات.

ما الحل الذي توصلنا إليه؟

بكل بساطة، تبدو مهمة البحث كما يلي: بالنسبة لطلب وارد جديد، تحتاج إلى العثور على الطلبات الأكثر تشابهًا من حيث المعنى والمحتوى من الأرشيف، وتقديم الحلول المخصصة لها. السؤال الذي يطرح نفسه هو كيفية تعليم النظام فهم المعنى العام للعنوان؟ الجواب هو التحليل الدلالي بالكمبيوتر. تتيح لك أدوات التعلم الآلي إنشاء نموذج دلالي لأرشيف النتائج، واستخراج دلالات الكلمات الفردية والنتائج الكاملة من أوصاف النص. يتيح لك ذلك إجراء تقييم رقمي لدرجة القرب بين التطبيقات وتحديد أقرب التطابقات.

تتيح لك الدلالات أن تأخذ في الاعتبار معنى الكلمة اعتمادًا على سياقها. وهذا يجعل من الممكن فهم المرادفات وإزالة غموض الكلمات.

تتكون المعالجة من تنظيف محتوى الطلبات من الكلمات والرموز غير الضرورية وتقسيم المحتوى إلى مفردات منفصلة - رموز مميزة. وبما أن الطلبات تأتي في شكل بريد إلكتروني، فإن هناك مهمة منفصلة تتمثل في تنظيف نماذج البريد، والتي تختلف من حرف إلى آخر. للقيام بذلك، قمنا بتطوير خوارزمية التصفية الخاصة بنا. بعد تطبيقه، يتبقى لنا المحتوى النصي للرسالة بدون كلمات تمهيدية وتحية وتوقيعات. ثم تتم إزالة علامات الترقيم من النص، ويتم استبدال التواريخ والأرقام بعلامات خاصة. تعمل تقنية التعميم هذه على تحسين جودة استخراج العلاقات الدلالية بين الرموز المميزة. بعد ذلك، تخضع الكلمات لعملية lemmatization - وهي عملية اختزال الكلمات إلى شكل عادي، مما يؤدي أيضًا إلى تحسين الجودة من خلال التعميم. ثم يتم التخلص من أجزاء الكلام ذات الحمل الدلالي المنخفض: حروف الجر، والمداخلات، والجسيمات، وما إلى ذلك. بعد ذلك، تتم تصفية جميع رموز الحروف من خلال القواميس (المجموعة الوطنية للغة الروسية). بالنسبة للتصفية المستهدفة، يتم استخدام قواميس مصطلحات تكنولوجيا المعلومات واللغة العامية.

أمثلة على نتائج المعالجة:

كأداة للتعلم الآلي، نستخدم ناقل الفقرة (word2vec)- تقنية التحليل الدلالي للغات الطبيعية، والتي تعتمد على تمثيل متجه موزع للكلمات. تم تطويره بواسطة ميكولوف وآخرون بالتعاون مع Google في عام 2014. يعتمد مبدأ التشغيل على افتراض أن الكلمات الموجودة في سياقات مماثلة قريبة من المعنى. على سبيل المثال، غالبًا ما توجد الكلمتان "الإنترنت" و"الاتصال" في سياقات مماثلة، على سبيل المثال، "تم فقدان الإنترنت على خادم 1C" أو "تم فقدان الاتصال على خادم 1C". يقوم Paragraph Vector بتحليل بيانات نص الجملة ويخلص إلى أن الكلمتين "الإنترنت" و"الاتصال" قريبتان لغويًا. كلما زاد عدد البيانات النصية التي تستخدمها الخوارزمية، زادت كفاية هذه الاستنتاجات.

إذا تعمقت في التفاصيل:

واستنادا إلى المحتويات المعالجة، يتم تجميع "أكياس الكلمات" لكل نداء. حقيبة الكلمات عبارة عن جدول يوضح تكرار ظهور كل كلمة في كل مرجع. تحتوي الصفوف على أرقام المستندات، بينما تحتوي الأعمدة على أرقام الكلمات. عند التقاطع توجد أرقام توضح عدد مرات ظهور الكلمة في المستند.

هنا مثال:

  • يختفي خادم الإنترنت 1C
  • يختفي اتصال خادم 1C
  • تعطل خادم 1C

وهذا ما تبدو عليه حقيبة الكلمات:

باستخدام نافذة منزلقة، يتم تحديد سياق كل كلمة متداولة (أقرب جيرانها على اليسار واليمين) ويتم تجميع مجموعة التدريب. وبناءً عليه، تتعلم الشبكة العصبية الاصطناعية التنبؤ بالكلمات المتداولة، اعتمادًا على سياقها. تشكل السمات الدلالية المستخرجة من النتائج ناقلات متعددة الأبعاد. أثناء التدريب، تتكشف المتجهات في الفضاء بحيث يعكس موقعها العلاقات الدلالية (القريبة في المعنى قريبة). عندما تحل الشبكة مشكلة التنبؤ بشكل مرض، يمكن القول إنها نجحت في استخلاص المعنى الدلالي للادعاءات. تسمح لك تمثيلات المتجهات بحساب الزاوية والمسافة بينهما، مما يساعد على تقدير قياس قربها عدديًا.

كيف قمنا بتصحيح المنتج

نظرًا لوجود عدد كبير من الخيارات لتدريب الشبكات العصبية الاصطناعية، فقد نشأت مهمة إيجاد القيم المثلى لمعلمات التدريب. أي تلك التي يحدد فيها النموذج بدقة أكبر نفس المشكلات الفنية الموصوفة بكلمات مختلفة. نظرًا لصعوبة تقييم دقة الخوارزمية تلقائيًا، فقد أنشأنا واجهة تصحيح الأخطاء لتقييم الجودة يدويًا وأدوات التحليل:

لتحليل جودة التدريب، استخدمنا أيضًا تصورات للاتصالات الدلالية باستخدام T-SNE، وهي خوارزمية تقليل الأبعاد (استنادًا إلى التعلم الآلي). يسمح لك بعرض المتجهات متعددة الأبعاد على المستوى بطريقة تعكس المسافة بين النقاط المرجعية قربها الدلالي. سوف تظهر الأمثلة 2000 زيارة.

فيما يلي مثال للتدريب النموذجي الجيد. يمكنك ملاحظة أن بعض الطلبات مجمعة في مجموعات تعكس موضوعها العام:

جودة النموذج التالي أقل بكثير من النموذج السابق. النموذج غير متدرب. ويشير التوزيع الموحد إلى أن تفاصيل العلاقات الدلالية لم يتم تعلمها إلا بشكل عام، وهو ما تم الكشف عنه بالفعل أثناء تقييم الجودة اليدوي:

وأخيرا، عرض للرسم البياني لإعادة تدريب النموذج. على الرغم من وجود تقسيم إلى مواضيع، إلا أن النموذج ذو جودة منخفضة للغاية.

تأثير إدخال التعلم الآلي

بفضل استخدام تقنيات التعلم الآلي وخوارزميات تنظيف النصوص الخاصة بنا، تلقينا:

  • إضافة إلى نظام معلومات الصناعة القياسي، مما يوفر الوقت بشكل كبير في إيجاد حلول لمهام مكتب الخدمة اليومية.
  • انخفض الاعتماد على العامل البشري. يمكن حل التطبيق في أسرع وقت ممكن ليس فقط من قبل شخص سبق له حله من قبل، ولكن أيضًا من قبل شخص ليس على دراية بالمشكلة على الإطلاق.
  • يحصل العميل على خدمة أفضل، إذا كان حل مشكلة غير مألوفة للمهندس يستغرق من 15 دقيقة، الآن يستغرق الأمر ما يصل إلى 15 دقيقة إذا كان شخص ما قد قام بحل هذه المشكلة من قبل.
  • فهم أنه يمكن تحسين جودة الخدمة من خلال توسيع وتحسين قاعدة الأوصاف وحلول المشكلات. يتم إعادة تدريب نموذجنا باستمرار مع وصول بيانات جديدة، مما يعني تزايد جودته وعدد الحلول الجاهزة.
  • يمكن لموظفينا التأثير على خصائص النموذج من خلال المشاركة المستمرة في تقييم جودة البحث والحلول، مما يسمح بتحسينه بشكل مستمر.
  • أداة يمكن أن تكون معقدة ومتطورة لاستخراج قيمة أكبر من المعلومات الموجودة. بعد ذلك، نخطط لجذب المتعاقدين الخارجيين الآخرين إلى الشراكات وتعديل الحل لحل المشكلات المماثلة لعملائنا.

أمثلة على البحث عن طلبات مماثلة (يتم الاحتفاظ بالتهجئة وعلامات الترقيم للمؤلفين):

طلب وارد معظم طلب مماثل من الأرشيف التشابه %
"إعادة: تشخيص جهاز الكمبيوتر PC 12471 يدخل في إعادة التشغيل بعد توصيل محرك أقراص محمول. تحقق من السجلات. تشخيص وفهم ما هي المشكلة. "يتم إعادة تشغيل جهاز الكمبيوتر، وعندما تقوم بتوصيل محرك أقراص محمول، تتم إعادة تشغيل جهاز الكمبيوتر. PC 37214 تحقق من المشكلة. الكمبيوتر الشخصي تحت الضمان. 61.5
"لا يعمل الخادم النهائي بعد انقطاع التيار الكهربائي. الموت الزرقاء" "بعد إعادة تشغيل الخادم، لا يتم تحميل الخادم ويصدر صوت تنبيه" 68.6
"الكاميرا لا تعمل" "الكاميرات لا تعمل" 78.3
رد: لا يتم إرسال رسائل البريد الإلكتروني الخاصة بـ Bat، تظهر رسالة مفادها أن المجلد ممتلئ. رد: البريد غير مقبول تجاوز المجلد في الخفافيش! المجلد أكثر من 2 غيغابايت 68.14
"خطأ عند بدء تشغيل 1C - من المستحيل الحصول على شهادة خادم الترخيص. أنا أرفق لقطة الشاشة. (كمبيوتر 21363)" لا يبدأ 1C CRM، ولا يبدأ 1C على أجهزة الكمبيوتر 2131 و2386، الخطأ التالي: من المستحيل الحصول على شهادة خادم الترخيص. تعذر العثور على خادم الترخيص في وضع البحث التلقائي." 64.7

في البداية، تم التخطيط للحل معماريًا على النحو التالي:

الحل البرمجي مكتوب بالكامل بلغة Python 3. المكتبة التي تنفذ أساليب التعلم الآلي مكتوبة جزئيًا بلغة c/c++، مما يسمح لك باستخدام إصدارات محسنة من الأساليب، والتي توفر سرعة تبلغ حوالي 70 مرة مقارنة بتطبيقات Python النقية. في الوقت الحالي، تبدو بنية الحل كما يلي:

بالإضافة إلى ذلك، تم تطوير ودمج نظام لتحليل الجودة وتحسين معايير التدريب النموذجية. كما تم تطوير واجهة ردود الفعل مع المشغل، مما يسمح له بتقييم جودة اختيار كل حل.

يمكن استخدام هذا الحل لعدد كبير من المهام المتعلقة بالنص، سواء كانت:

  • البحث الدلالي للمستندات (حسب محتوى المستند أو الكلمات الرئيسية).
  • تحليل لهجة التعليقات (تحديد المفردات المشحونة عاطفياً في النصوص والتقييم العاطفي للآراء فيما يتعلق بالأشياء التي تمت مناقشتها في النص).
  • استخراج ملخصات النصوص.
  • بناء التوصيات (التصفية التعاونية).

يتكامل الحل بسهولة مع أنظمة إدارة المستندات، حيث أن تشغيله لا يتطلب سوى قاعدة بيانات تحتوي على نصوص.

سنكون سعداء بتقديم تقنيات التعلم الآلي لزملاء تكنولوجيا المعلومات والعملاء من الصناعات الأخرى، اتصل بنا إذا كنت مهتمًا بالمنتج.

اتجاهات تطوير المنتج

الحل هو في مرحلة اختبار ألفا ويتطور بنشاط في الاتجاهات التالية:

  • إنشاء خدمة سحابية
  • إثراء النموذج من خلال حلول الدعم الفني في المجال العام وبالتعاون مع شركات الاستعانة بمصادر خارجية أخرى
  • إنشاء بنية حلول موزعة (تبقى البيانات لدى العميل، ويتم إنشاء النموذج ومعالجة الطلبات على الخادم الخاص بنا)
  • توسيع النموذج ليشمل مجالات مواضيعية أخرى (الطب، القانون، صيانة المعدات، إلخ.)

يعد التعلم الآلي أحد أكثر المجالات شيوعًا في علوم الكمبيوتر، على الرغم من أنه في الوقت نفسه أحد أكثر المجالات التي يتم تجنبها بين المطورين. السبب الرئيسي لذلك هو أن الجزء النظري من التعلم الآلي يتطلب تدريبًا رياضيًا عميقًا، وهو ما يفضل الكثير من الناس نسيانه فورًا بعد الانتهاء من الدراسة الجامعية. ولكن من الضروري أن نفهم أنه بالإضافة إلى الأسس النظرية، هناك أيضًا جانب عملي، والذي يبدو أنه من الأسهل بكثير إتقانه واستخدامه على أساس يومي. الهدف من هذا العمل هو سد الفجوة بين المبرمجين وعلماء البيانات وإظهار أن استخدام التعلم الآلي في تطبيقاتك يمكن أن يكون بسيطًا للغاية. توضح المقالة التسلسل الكامل للخطوات اللازمة لبناء نموذج للتنبؤ بسعر السيارة اعتمادًا على مجموعة خصائصها ثم استخدامها في تطبيق الهاتف المحمول على Windows 10 Mobile.

ما هو أزور مل؟

باختصار، التعلم الآلي من Azure هو:

  • حل سحابي يسمح ببناء واستخدام نماذج التعلم الآلي المعقدة في شكل بسيط ومرئي؛
  • نظام بيئي مصمم لتوزيع الخوارزميات الجاهزة وتحقيق الدخل منها.
يمكنك العثور على مزيد من المعلومات حول Azure ML بشكل أكبر في هذه المقالة، وكذلك من خلال اتباع الرابط

لماذا أزور مل؟
لأن Azure Machine Learning هو أحد أبسط الأدوات لاستخدام التعلم الآلي، مما يؤدي إلى إزالة حاجز الدخول لأي شخص يقرر استخدامه لتلبية احتياجاته. مع Azure ML، لم تعد بحاجة إلى أن تكون عالم رياضيات.

العملية المنطقية لبناء خوارزمية التعلم الآلي

  1. تحديد الهدف.جميع خوارزميات التعلم الآلي تصبح عديمة الفائدة بدون غرض محدد بوضوح لإجراء التجربة. الهدف في هذا المختبر هو التنبؤ بسعر السيارة بناءً على مجموعة من الخصائص التي يقدمها المستخدم النهائي.
  2. جمع البيانات.خلال هذه المرحلة، يتم تكوين عينة بيانات ضرورية لمزيد من التدريب على النموذج. في هذه الحالة، سيتم استخدام البيانات من مستودع التعلم الآلي بجامعة كاليفورنيا.
    archive.ics.uci.edu/ml/datasets/Automobile
  3. إعداد البيانات.يتم في هذه المرحلة إعداد البيانات من خلال تكوين الخصائص وإزالة القيم المتطرفة وتقسيم العينة إلى تدريب واختبار.
  4. تطوير النموذج.في عملية تطوير النموذج، يتم اختيار واحد أو أكثر من نماذج البيانات وخوارزميات التعلم المقابلة، والتي، في رأي المطور، يجب أن تعطي النتيجة المطلوبة. غالبًا ما يتم دمج هذه العملية مع بحث موازٍ حول فعالية العديد من النماذج والتحليل البصري للبيانات من أجل العثور على أي أنماط.
  5. التدريب النموذجي.أثناء التدريب، تبحث خوارزمية التعلم عن الأنماط المخفية في عينة البيانات من أجل إيجاد طريقة للتنبؤ. يتم تحديد عملية البحث نفسها من خلال النموذج المحدد وخوارزمية التعلم.
  6. تقييم النموذج.بعد تدريب النموذج، من الضروري فحص خصائصه التنبؤية. في أغلب الأحيان، للقيام بذلك، يتم تشغيله على عينة اختبار ويتم تقييم مستوى الخطأ الناتج. اعتمادًا على ذلك ومتطلبات الدقة، يمكن قبول النموذج باعتباره النموذج النهائي أو إعادة تدريبه بعد إضافة خصائص إدخال جديدة أو حتى تغيير خوارزمية التعلم.
  7. باستخدام النموذج.إذا تم اختبار النموذج المدرب بنجاح، تبدأ مرحلة استخدامه. وهذا هو الحال عندما يصبح Azure ML لا غنى عنه، حيث يوفر جميع الأدوات اللازمة للنشر والمراقبة وتحقيق الدخل من الخوارزميات

بناء نموذج تنبؤي

في الصفحة التي تفتح، انقر فوق البدء الآن.

لاستخدام Azure ML، تحتاج إلى اشتراك Microsoft Azure نشط. إذا كان لديك حساب بالفعل، فما عليك سوى تسجيل الدخول إلى Azure Management Portal، وإلا، فقم بالتسجيل المسبق لحساب تجريبي مجاني من خلال النقر على الرابط.

أولا وقبل كل شيء، تحتاج إلى تحميل مجموعة التدريب. للقيام بذلك، اتبع الرابط وقم بتنزيل ملف imports-85.data على جهاز الكمبيوتر الخاص بك، والذي يحتوي على مجموعة مختارة من البيانات الخاصة بالسيارات.
لتحميل هذا الملف إلى Azure ML Studio، انقر فوق جديد في أسفل الصفحة وفي اللوحة التي تفتح، حدد مجموعة البيانات ومن الملف المحلي. في قائمة التنزيل، حدد المسار إلى الملف الذي تم تنزيله، ثم قم بالاسم وحدد ملف CSV عام بدون رأس (.hn.csv) كنوع.

خلق تجربة جديدة

لإنشاء تجربة جديدة، حدد جديد -> تجربة -> تجربة فارغة. سيؤدي هذا إلى إنشاء مساحة عمل تجربة جديدة مع شريط أدوات على اليمين.

تحديد عينة البيانات

يجب أن تنعكس البيانات التي تم تنزيلها مسبقًا في قسم مجموعات البيانات المحفوظة على اليسار. حدده واسحبه إلى أي مكان في مساحة العمل، على سبيل المثال، حيث يشير سهم سحب العناصر هنا.

لاحظ أن مصدر البيانات يحتوي على نقطة اتصال على شكل دائرة يتم استخدامها لتوصيله بالمكونات الأخرى.

إعداد البيانات

عند تطوير نماذج التعلم الآلي، من الممارسات الجيدة التحقق من النتائج التجريبية الأولية بعد كل تغيير. لذلك انقر بزر الماوس الأيمن على نقطة الاتصال وحدد تصور. ونتيجة لذلك، ستظهر نافذة تعطي نظرة عامة على البيانات وتوزيعها.

كما ترون، هناك مشكلة في العينة - هناك قيم مفقودة في العمود الثاني. يمكن أن يخلق هذا تأثيرًا غير مرغوب فيه أثناء عملية التدريب ويقلل بشكل كبير من جودة النموذج. لكن لحسن الحظ فإن هذه القيم تميز تكاليف التأمين وترتبط بشكل ضعيف بسعر السيارة وبالتالي يمكن إزالتها. من بين أمور أخرى، لا تحتوي الأعمدة على أسماء، مما يجعل العمل معهم أكثر صعوبة.

لإصلاح مشكلة الأسماء من مجموعة تحويل/معالجة البيانات، قم بالنقل إلى سطح عمل محرر البيانات الوصفية.

اسحب مخرجات (أسفل) عينة البيانات إلى مدخلات (أعلى) المكون الجديد لتوصيلها. الآن انقر عليها لفتح نافذة الإعدادات على اليمين. يتيح لك محرر البيانات الوصفية تغيير المعلومات التعريفية لعمود واحد أو أكثر، بما في ذلك النوع أو الاسم. افتح معالج محدد الأعمدة بالنقر فوق تشغيل محدد الأعمدة. لتحديد جميع الأعمدة، حدد جميع الأعمدة في الحقل "البدء بـ"، واحذف سطر تحسين التحديد بالنقر فوق علامة "-" الموجودة على اليمين، ثم قم بالتأكيد بالنقر فوق علامة الاختيار.

في حقل أسماء الأعمدة الجديدة بلوحة الإعدادات، أدخل أسماء الأعمدة الجديدة مفصولة بفواصل، والتي يمكن العثور عليها في ملف import-85.names على الرابط المقدم مسبقًا. يجب أن تكون قيمة الحقل كما يلي:

الترميز، الخسائر الطبيعية، الصنع، نوع الوقود، الطموح، عدد الأبواب، نمط الجسم، العجلات الدافعة، موقع المحرك، قاعدة العجلات، الطول، العرض، الارتفاع، الوزن الفارغ، نوع المحرك، عدد الأسطوانات، حجم المحرك، نظام الوقود، التجويف، الشوط، نسبة الضغط، القدرة الحصانية، ذروة دورة في الدقيقة، ميلا في الغالون داخل المدينة، ميلا في الغالون على الطريق السريع، السعر

من أجل رؤية نتيجة تشغيل المكون، انقر فوق "تشغيل" في الأسفل وتصور مخرجات محرر البيانات الوصفية بالطريقة الموضحة سابقًا.

الآن دعونا نزيل الخسائر الطبيعية. للقيام بذلك، اسحب أعمدة المشروع من نفس المجموعة إلى مساحة العمل، وقم بتوصيلها بمحرر البيانات التعريفية وانتقل إلى إعداداتها. حدد محدد الصفوف مرة أخرى، وهذه المرة حدد جميع الصفوف باستثناء الخسائر الطبيعية، مع ضبط الإعدادات المشابهة لتلك الموضحة في الصورة أدناه.

قم بإجراء التجربة وتصور النتيجة للتأكد من أن العمود الثاني مفقود من العينة.

لسوء الحظ، لا تزال هناك أعمدة تفتقد القيم. ولكن ليس هناك الكثير منهم، وبالتالي يمكنك أن تقتصر على التخلص من الخطوط غير المكتملة فقط. للقيام بذلك، حدد Missing Value Scrubber وقم بتوصيله بأعمدة المشروع. في حقل القيم المفقودة، قم بتغيير القيمة إلى إزالة الصف بأكمله. قم بتشغيله وعرضه وتأكد من اختفاء الصفوف ذات القيم الفارغة.

هناك سؤال أخير يجب الإجابة عليه في مرحلة الإعداد: هل تؤثر جميع الخصائص على سعر السيارة؟ في هذه المرحلة، يمكننا أن نقتصر على العدد الصغير التالي من المؤشرات، والتي ترد قائمة بها أدناه. وفي المستقبل، يمكنك دائمًا إضافة نماذج جديدة واختبار الفرضية حول مدى كفايتها من خلال مقارنة دقة النماذج الناتجة.

الطراز، طراز الجسم، قاعدة العجلات، حجم المحرك، القوة الحصانية، ذروة عدد دورات المحرك في الدقيقة، ميلا في الغالون على الطريق السريع، عدد الأسطوانات، السعر

أضف أعمدة مشروع جديدة وحدد الأعمدة أعلاه.

وأخيرا، تأكد من نجاح إعداد البيانات الخاصة بك عن طريق تشغيل التجربة وتصور النتيجة.

انهيار العينة

البيانات جاهزة الآن للاستخدام في عملية التدريب. ولكن في التعلم الآلي، يكون هناك تأثير يسمى "التدريب الزائد" ممكنًا، حيث يتعلم النموذج البيانات دون تعميم. يؤدي هذا السلوك إلى استحالة التنبؤ المناسب بأي بيانات مختلفة. ولمعالجة هذا الموقف، من المعتاد تقسيم العينة إلى تدريب واختبار بنسبة قريبة من 3:1. ولا يشارك الأخير منهم بأي شكل من الأشكال في عملية التعلم وعند الانتهاء يتم استخدامه لتقدير خطأ التنبؤ. إذا كان هذا الخطأ يختلف بشكل كبير عن الخطأ الموجود في مجموعة التدريب، فسيتم ملاحظة التأثير الموضح أعلاه.

لإنشاء عينة اختبار، اسحب مكون البيانات المقسمة من مجموعة تحويل/عينة البيانات والتقسيم إلى أعمدة المشروع الأخيرة. قم بتعيين جزء الصف من الإخراج الأول إلى 0.75 وتأكد من تعيين علامة Randomize Split.

تدريب نموذج الانحدار الخطي

أولاً، اسحب مكونات الانحدار الخطي ونموذج التدريب ونموذج النتيجة ونموذج التقييم من شريط الأدوات. يعد Train Model مكونًا عالميًا يسمح بتدريب أي نموذج على أي مجموعة تدريب. لإعداد حالتنا المحددة، قم بتوصيل مخرجات البيانات المقسمة الأولى (اليسرى) ومخرجات الانحدار الخطي بمدخلات نموذج القطار المقابلة. في إعدادات نموذج القطار، حدد السعر كقيمة مستهدفة (عمود النتيجة). النموذج جاهز الآن للتدريب.

ولكن، بالإضافة إلى التدريب نفسه، من المهم معرفة نتيجة التدريب. يتيح لك مكون نموذج النتيجة حساب مخرجات النموذج المُدرب على عينة عشوائية وحساب نتيجة التنبؤ. قم بتوصيل مخرجات نموذج القطار، الذي يحتوي على النموذج المُدرب، بمدخل نموذج النتيجة المقابل، ثم قم بتغذية عينة الاختبار من مخرج البيانات المقسمة الثاني كعينة بيانات إلى المدخلات الأخرى. قم بتوصيل مخرجات نموذج النقاط بأي من مدخلات نموذج التقييم من أجل حساب الخصائص العددية لجودة التدريب. يجب أن تكون النتيجة عملية مشابهة لتلك الموضحة في الشكل.

قم بتشغيل النموذج وتصور إخراج نموذج التقييم.

يشير معامل التحديد إلى مدى جودة وصف خط الانحدار للبيانات الأصلية. تتراوح القيم التي يقبلها من 0 إلى 1، حيث يتوافق الواحد مع الدقة المطلقة. في حالتنا، المعامل هو 82٪. سواء كانت هذه نتيجة جيدة أم لا، يعتمد بشكل مباشر على صياغة المشكلة وتحمل معين للخطأ. وفي حالة التنبؤ بسعر السيارة فإن نسبة 82% تعتبر نتيجة ممتازة. إذا كنت ترغب في تحسينه، فحاول إضافة أعمدة أخرى إلى أعمدة المشروع أو جرب خوارزمية مختلفة تمامًا. على سبيل المثال، انحدار بواسون. ويمكن تحقيق هذا الأخير ببساطة عن طريق استبدال مكون الانحدار الخطي بمكون بواسون. لكن النهج الأكثر إثارة للاهتمام هو تجميع التدريب المتوازي من العناصر وربط النتيجة بالمخرج الثاني لنموذج التقييم، مما سيسمح لك بمقارنة نتائج التدريب لكلا النموذجين في شكل مناسب.

قم بتشغيل النموذج وتصور النتيجة. وكما يتبين من النتيجة، يتم وصف البيانات بشكل أفضل بكثير من خلال نموذج الانحدار الخطي، وبالتالي هناك كل الأسباب لاختيارها باعتبارها النموذج النهائي.

انقر بزر الماوس الأيمن على مكون نموذج القطار المتوافق مع الانحدار الخطي وحدد حفظ كنموذج مدرب. سيسمح لك ذلك باستخدام النموذج الناتج في أي تجارب أخرى دون الحاجة إلى إعادة التدريب.

نشر خدمة الويب

لنشر الخدمة، حدد مكون نموذج القطار المتوافق مع الانحدار الخطي وانقر فوق إعداد خدمة الويب. في القائمة التي تفتح، حدد خدمة الويب التنبؤية وانتظر حتى يقوم Azure ML بإنشاء تجربة جديدة محسنة لاحتياجات الخدمة. قم بحذف مكونات مدخلات خدمة الويب ومكونات مخرجات خدمة الويب التي تم إنشاؤها تلقائيًا - سنقوم بإنشائها لاحقًا بعد قليل من الإعداد.

حاليًا، يكرر عنصر نموذج النتيجة جميع أعمدة الإدخال في مخرجاته، ويعطي القيمة المتوقعة اسم تسميات النقاط. هذا يحتاج إلى إصلاح.

للقيام بذلك، قم بنقل مكونين مألوفين بالفعل من شريط الأدوات إلى سطح العمل: أعمدة المشروع ومحرر البيانات الوصفية. وقم بتوصيلهم بالتسلسل الموضح في الشكل أدناه. في إعدادات أعمدة المشروع، حدد عمودًا واحدًا فقط، وهو تسميات النقاط، واستخدم محرر البيانات الوصفية، وأعد تسميته بالسعر.

وأخيرًا، تحتاج إلى إضافة مدخلات ومخرجات الخدمة التي يتم إنشاؤها. للقيام بذلك، أضف مدخلات خدمة الويب ومخرجات خدمة الويب إلى التجربة. قم بتوصيل الأول بمدخل نموذج النتيجة، والثاني بمخرج محرر البيانات الوصفية. في إعدادات كلا العنصرين، قم بتغيير الاسم إلى "الإدخال" و"التنبؤ" على التوالي.

قم بتشغيل النموذج مرة أخرى بالنقر فوق تشغيل، وبعد اكتمال التحقق من الصحة، قم بنشر الخدمة بالنقر فوق Deploy Web Service.

اختبار الخدمة

بعد النقر على Deploy Web Service، ستتم إعادة توجيهك إلى صفحة تحتوي على معلومات حول الخدمة التي تم إنشاؤها حديثًا. تحتوي الروابط الموجودة ضمن واجهة برمجة تطبيقات صفحة المساعدة على وصف تفصيلي إلى حد ما مع معلومات حول محتويات حزم JSON الواردة والصادرة، بالإضافة إلى رمز نموذجي لتطبيق وحدة التحكم الذي يعطي فكرة عن كيفية استخدامه.

للاختبار التفاعلي، انقر فوق اختبار وفي النافذة التي تفتح، أدخل قيمًا لكل معلمة إدخال. على سبيل المثال، ما يلي، ثم انقر فوق مربع الاختيار لإرسال طلب اختبار.

أودي سيدان 99.8 أربعة 109 102 5500 30 13950

تطوير التطبيقات

في الختام، دعونا نلقي نظرة على عملية تطوير تطبيق الهاتف المحمول باستخدام Azure ML كخدمة خلفية. أولاً، قم بإنشاء مشروع Universal Windows App جديد. للقيام بذلك، مع فتح Visual Studio 2015، حدد ملف -> جديد -> مشروع... في النافذة التي تفتح، انتقل إلى علامة تبويب Windows في القائمة اليسرى وحدد تطبيق فارغ (Windows العالمي). في حقل العنوان، أدخل AzureMLDemo وانقر فوق موافق. إذا لزم الأمر، يمكن العثور على المشروع النهائي على GitHub.

بعد بعض التحضير، سيفتح Visual Studio مشروع تطبيق عالمي جديد. تأكد من تعيين حقل بنية المعالج الموجود على يمين Debug على x86، وعلى اليمين، حدد أحد الأجهزة الافتراضية المحمولة كبيئة التشغيل. على سبيل المثال، Mobile Emulator 10.0.10240.0 720p 5 بوصة 1 جيجابايت.

الآن يمكنك الانتقال إلى كتابة التطبيق نفسه. في قائمة Solution Explorer، انقر نقرًا مزدوجًا لفتح MainPage.xaml. إن وصف لغة ترميز GUI XAML يقع خارج نطاق هذا العمل، لذا قم ببساطة باستبدال علامتي الفتح والإغلاق إلى الكود أدناه.