كيفية القيام بتحليل الكتلة في Excel: النطاق والتعليمات. تحليل الكتلة هو خوارزمية لدراسة البيانات مقسمة إلى مجموعات وفقًا لخصائص متشابهة.

، الإدارة العامة ، فقه اللغة ، الأنثروبولوجيا ، التسويق ، علم الاجتماع ، الجيولوجيا والتخصصات الأخرى. ومع ذلك ، أدت عالمية التطبيق إلى ظهور عدد كبير من المصطلحات والطرق والنهج غير المتوافقة التي تجعل من الصعب استخدام التحليل العنقودي بشكل لا لبس فيه وتفسيره باستمرار.

موسوعي يوتيوب

  • 1 / 5

    يؤدي تحليل الكتلة المهام الرئيسية التالية:

    • تطوير التصنيف أو التصنيف.
    • استكشاف المخططات المفاهيمية المفيدة لتجميع الكائنات.
    • توليد الفرضيات على أساس استكشاف البيانات.
    • اختبار الفرضيات أو البحث لتحديد ما إذا كانت الأنواع (المجموعات) المحددة بطريقة أو بأخرى موجودة بالفعل في البيانات المتاحة.

    بغض النظر عن موضوع الدراسة ، فإن استخدام التحليل العنقودي يتضمن الخطوات التالية:

    • أخذ العينات للتجميع. من المفهوم أنه من المنطقي تجميع البيانات الكمية فقط.
    • تعريف مجموعة من المتغيرات التي سيتم من خلالها تقييم الكائنات في العينة ، أي مساحة الميزة.
    • حساب قيم مقياس أو آخر للتشابه (أو الاختلاف) بين الكائنات.
    • تطبيق طريقة التحليل العنقودي لإنشاء مجموعات من الكائنات المتشابهة.
    • التحقق من صحة نتائج الحل العنقودي.

    يمكنك العثور على وصف لاثنين من المتطلبات الأساسية للبيانات - التوحيد والاكتمال. يتطلب التجانس أن تكون جميع الكيانات العنقودية من نفس الطبيعة ، موصوفة بمجموعة مماثلة من الخصائص. إذا كان تحليل الكتلة مسبوقًا بتحليل عاملي ، فلن تحتاج العينة إلى "إصلاح" - يتم استيفاء المتطلبات المذكورة تلقائيًا بواسطة إجراء نمذجة العوامل نفسه (هناك ميزة أخرى - توحيد z بدون عواقب سلبية على العينة ؛ إذا يتم تنفيذه مباشرة للتحليل العنقودي ، يمكن أن يؤدي إلى انخفاض في وضوح فصل المجموعات). خلاف ذلك ، يجب تعديل العينة.

    تصنيف مشاكل التكتل

    أنواع المدخلات

    في العلم الحديث ، يتم استخدام العديد من الخوارزميات لمعالجة بيانات الإدخال. يسمى التحليل من خلال مقارنة الكائنات بناءً على السمات (الأكثر شيوعًا في العلوم البيولوجية) س- نوع التحليل ، وفي حالة مقارنة الميزات ، على أساس العناصر - ص- نوع التحليل. هناك محاولات لاستخدام أنواع مختلطة من التحليل (على سبيل المثال ، RQالتحليل) ، لكن هذه المنهجية لم يتم تطويرها بشكل صحيح بعد.

    أهداف التجميع

    • فهم البيانات عن طريق تحديد هيكل الكتلة. إن تقسيم العينة إلى مجموعات من الكائنات المتشابهة يجعل من الممكن تبسيط معالجة البيانات واتخاذ القرار من خلال تطبيق طريقة التحليل الخاصة بها على كل مجموعة (استراتيجية "فرق تسد").
    • ضغط البيانات. إذا كانت العينة الأولية كبيرة للغاية ، فيمكن تقليلها ، وترك أحد أكثر الممثلين نموذجية من كل مجموعة.
    • كشف الحداثة (هندسة كشف الجدة). يتم تحديد الكائنات غير النمطية التي لا يمكن إرفاقها بأي من المجموعات.

    في الحالة الأولى ، يحاولون تقليل عدد المجموعات. في الحالة الثانية ، من المهم ضمان درجة عالية من التشابه للكائنات داخل كل مجموعة ، ويمكن أن يكون هناك أي عدد من المجموعات. في الحالة الثالثة ، تكون الأشياء الفردية التي لا تتناسب مع أي من المجموعات ذات أهمية قصوى.

    في جميع هذه الحالات ، يمكن تطبيق المجموعات الهرمية ، عندما يتم تقسيم المجموعات الكبيرة إلى مجموعات أصغر ، والتي بدورها يتم تقسيمها إلى مجموعات أصغر ، وما إلى ذلك. وتسمى هذه المهام مهام التصنيف. نتيجة التصنيف هي بنية هرمية تشبه الشجرة. بالإضافة إلى ذلك ، يتميز كل كائن بتعداد جميع المجموعات التي ينتمي إليها ، عادةً من الكبيرة إلى الصغيرة.

    طرق التجميع

    لا يوجد تصنيف مقبول بشكل عام لطرق التجميع ، ولكن يمكن التمييز بين عدد من مجموعات الأساليب (يمكن أن تُعزى بعض الطرق إلى عدة مجموعات في وقت واحد ، وبالتالي يُقترح اعتبار هذا التصنيف على أنه بعض التقريب إلى التصنيف الحقيقي للتجميع. طرق):

    1. نهج احتمالي. من المفترض أن كل عنصر قيد الدراسة ينتمي إلى إحدى فئات k. يعتقد بعض المؤلفين (على سبيل المثال ، أ. أ. أورلوف) أن هذه المجموعة لا تنتمي إلى التجمع على الإطلاق ويعارضونها تحت اسم "التمييز" ، أي اختيار تخصيص الأشياء لإحدى المجموعات المعروفة (عينات التدريب).
    2. مقاربات تعتمد على أنظمة الذكاء الاصطناعي: مجموعة مشروطة للغاية ، نظرًا لوجود الكثير من الأساليب ومنهجيتها فهي مختلفة جدًا.
    3. نهج منطقي. يتم تنفيذ مخطط dendrogram باستخدام شجرة القرار.
    4. نهج الرسم البياني النظري.
    5. النهج الهرمي. يفترض وجود مجموعات متداخلة (مجموعات من أوامر مختلفة). الخوارزميات ، بدورها ، تنقسم إلى تكتل (موحد) وتقسيم (فصل). وفقًا لعدد الميزات ، يتم أحيانًا تمييز طرق التصنيف الأحادية والمتحركة.
      • المجموعات أو التصنيف التقسيمي الهرمي. تعتبر مشاكل التجميع في التصنيف الكمي.
    6. أساليب أخرى. غير مدرج في المجموعات السابقة.
      • خوارزميات التجميع الإحصائي
      • فرقة العنقودية
      • خوارزميات عائلة كراب
      • خوارزمية تعتمد على طريقة الغربلة

    في بعض الأحيان يتم الجمع بين النهجين 4 و 5 تحت اسم النهج الهيكلي أو الهندسي ، والذي يحتوي على مفهوم أكثر رسمية للقرب. على الرغم من الاختلافات الكبيرة بين الطرق المدرجة ، إلا أنها تعتمد جميعها على الطريقة الأصلية " فرضية الاكتناز»: في مساحة الكائن ، يجب أن تنتمي جميع الكائنات القريبة إلى نفس المجموعة ، ويجب أن تكون جميع الكائنات المختلفة ، على التوالي ، في مجموعات مختلفة.

    بيان رسمي لمشكلة التجميع

    اسمحوا ان X (displaystyle X)- أشياء كثيرة Y (displaystyle Y)- مجموعة أرقام (أسماء ، ملصقات) عناقيد. تم تعيين وظيفة المسافة بين الكائنات ρ (س، س ′) (displaystyle rho (x، x ")). هناك مجموعة تدريب محدودة من الأشياء X m = (x 1،…، x m) ⊂ X (displaystyle X ^ (m) = (x_ (1) ، dots ، x_ (m)) ، مجموعة فرعية X). مطلوب تقسيم العينة إلى مجموعات فرعية غير متداخلة تسمى عناقيد المجموعات، بحيث تتكون كل مجموعة من كائنات قريبة بالمتر ρ (displaystyle rho)، وأغراض المجموعات المختلفة اختلفت بشكل كبير. في نفس الوقت ، كل كائن x i ∈ X m (\ displaystyle x_ (i) \ in X ^ (m))رقم الكتلة المخصص y i (displaystyle y_ (i)).

    خوارزمية التجميعهي وظيفة أ: X → Y (\ displaystyle a \ Colon X \ to Y)، أي شيء س ∈ X (displaystyle x in X)يطابق رقم الكتلة ذ ∈ Y (displaystyle y in Y). الكثير من Y (displaystyle Y)في بعض الحالات يكون ذلك معروفًا مسبقًا ، ولكن غالبًا ما تكون المهمة هي تحديد العدد الأمثل للعناقيد ، من وجهة نظر واحدة أو أخرى معايير الجودةتجمع.

    بشكل عام ، من الجدير بالذكر أنه تم تطويره تاريخيًا بحيث يتم استخدام مقاييس التشابه في كثير من الأحيان كمقاييس للقرب في علم الأحياء ، بدلاً من مقاييس الاختلاف (المسافة).

    في علم الاجتماع

    عند تحليل نتائج البحث الاجتماعي ، يوصى بإجراء التحليل باستخدام طرق عائلة تكتلية هرمية ، وهي طريقة وارد ، حيث يتم تحسين الحد الأدنى من التشتت داخل المجموعات ، ونتيجة لذلك ، تكون المجموعات ذات الأحجام المتساوية تقريبًا تم انشاؤها. طريقة وارد هي الأكثر نجاحًا في تحليل البيانات الاجتماعية. كمقياس للاختلاف ، تكون المسافة الإقليدية التربيعية أفضل ، مما يساهم في زيادة تباين المجموعات. النتيجة الرئيسية لتحليل الكتلة الهرمية هي مخطط شجيرة أو "مخطط جليدي". عند تفسيرها ، يواجه الباحثون مشكلة من نفس النوع مثل تفسير نتائج تحليل العوامل - عدم وجود معايير لا لبس فيها لتحديد المجموعات. يوصى باستخدام طريقتين كطريقتين رئيسيتين - التحليل البصري للتشجير ومقارنة نتائج المجموعات التي يتم إجراؤها بواسطة طرق مختلفة.

    يتضمن التحليل المرئي لمخطط dendrogram "قطع" الشجرة عند المستوى الأمثل للتشابه بين عناصر العينة. يجب "قطع" "غصن الكرمة" (مصطلحات Oldenderfer MS و Blashfield R.K.) عند حوالي 5 على مقياس Rescaled Distance Cluster Combine ، وبالتالي تحقيق مستوى تشابه بنسبة 80٪. إذا كان تحديد المجموعات بواسطة هذه التسمية صعبًا (يتم دمج العديد من المجموعات الصغيرة في مجموعة كبيرة واحدة عليها) ، فيمكنك اختيار تسمية أخرى. تم اقتراح هذه التقنية من قبل Oldenderfer و Blashfield.

    الآن تبرز مسألة استقرار الحل العنقودي المعتمد. في الواقع ، يتحقق التحقق من استقرار المجموعات للتحقق من موثوقيتها. هناك قاعدة عامة هنا - يتم الحفاظ على تصنيف ثابت عندما تتغير طرق التجميع. يمكن التحقق من نتائج التحليل العنقودي الهرمي عن طريق التحليل العنقودي التكراري للوسائل k. إذا كانت التصنيفات التي تمت مقارنتها لمجموعات المستجيبين لها نصيب من المصادفات تزيد عن 70٪ (أكثر من 2/3 من المصادفات) ، فسيتم اتخاذ قرار جماعي.

    من المستحيل التحقق من كفاية الحل دون اللجوء إلى نوع آخر من التحليل. من الناحية النظرية على الأقل ، لم يتم حل هذه المشكلة. يشرح التحليل العنقودي الكلاسيكي لأولدندرفر وبلاشفيلد خمس طرق إضافية لاختبار المتانة ويرفضها في النهاية:

    1. الارتباط الوراثي - غير موصى به ومحدود الاستخدام ؛
    2. اختبارات الأهمية (تحليل التباين) - تعطي دائمًا نتيجة مهمة ؛
    3. تقنية العينات المتكررة (العشوائية) ، والتي ، مع ذلك ، لا تثبت صحة القرار ؛
    4. اختبارات الأهمية للسمات الخارجية مناسبة فقط للقياسات المتكررة ؛
    5. تعتبر طرق مونت كارلو معقدة للغاية ولا يمكن الوصول إليها إلا لعلماء الرياضيات ذوي الخبرة [ (هندسة كشف الحواف) أو التعرف على الأشياء.
    6. تحليل البيانات الذكي (التنقيب في البيانات الإنجليزية) - يصبح التجميع في تعدين البيانات ذا قيمة عندما يعمل كإحدى مراحل تحليل البيانات ، وبناء حل تحليلي كامل. غالبًا ما يكون من الأسهل للمحلل تحديد مجموعات من الكائنات المتشابهة ودراسة ميزاتها وبناء نموذج منفصل لكل مجموعة بدلاً من إنشاء نموذج عام واحد لجميع البيانات. تستخدم هذه التقنية باستمرار في التسويق ، وتسليط الضوء على مجموعات العملاء والمشترين والسلع وتطوير استراتيجية منفصلة لكل منهم.

    التحليل العنقودي في مشاكل التنبؤ الاجتماعي والاقتصادي

    مقدمة في التحليل العنقودي.

    عند تحليل الظواهر الاجتماعية والاقتصادية والتنبؤ بها ، غالبًا ما يواجه الباحث الأبعاد المتعددة لوصفها. يحدث هذا عند حل مشكلة تجزئة السوق ، وبناء تصنيف للدول وفقًا لعدد كبير بما فيه الكفاية من المؤشرات ، والتنبؤ بحالة السوق للسلع الفردية ، ودراسة الكساد الاقتصادي والتنبؤ به ، والعديد من المشكلات الأخرى.

    طرق التحليل متعدد المتغيرات هي الأداة الكمية الأكثر فعالية لدراسة العمليات الاجتماعية والاقتصادية الموصوفة بعدد كبير من الخصائص. وتشمل هذه التحليل العنقودي ، والتصنيف ، والتعرف على الأنماط ، وتحليل العوامل.

    يعكس تحليل الكتلة بشكل أوضح ميزات التحليل متعدد المتغيرات في التصنيف ، وتحليل العوامل - في دراسة الاتصال.

    يُشار أحيانًا إلى نهج التحليل العنقودي في الأدبيات على أنه التصنيف العددي ، والتصنيف العددي ، والتعرف على التعلم الذاتي ، وما إلى ذلك.

    وجد التحليل العنقودي أول تطبيق له في علم الاجتماع. يأتي تحليل كتلة الاسم من مجموعة الكلمات الإنجليزية - مجموعة ، تراكم. لأول مرة في عام 1939 ، تم تحديد موضوع التحليل العنقودي ووصفه الباحث تريون. الغرض الرئيسي من تحليل الكتلة هو تقسيم مجموعة الكائنات والميزات قيد الدراسة إلى مجموعات أو مجموعات متجانسة بالمعنى المناسب. وهذا يعني أنه يتم حل مشكلة تصنيف البيانات وتحديد الهيكل المقابل فيها. يمكن تطبيق أساليب التحليل العنقودي في مجموعة متنوعة من الحالات ، حتى عندما يتعلق الأمر بتجميع بسيط ، حيث ينخفض ​​كل شيء إلى تكوين المجموعات عن طريق التشابه الكمي.

    الميزة العظيمة لتحليل الكتلة هي أنه يسمح لك بتقسيم الكائنات ليس بواسطة معلمة واحدة ، ولكن بواسطة مجموعة كاملة من الميزات. بالإضافة إلى ذلك ، فإن التحليل العنقودي ، على عكس معظم الأساليب الرياضية والإحصائية ، لا يفرض أي قيود على نوع الكائنات قيد الدراسة ، ويسمح لنا بالنظر في مجموعة من البيانات الأولية ذات الطبيعة التعسفية تقريبًا. هذا ذو أهمية كبيرة ، على سبيل المثال ، للتنبؤ بالسوق ، عندما تحتوي المؤشرات على أشكال متنوعة تجعل من الصعب استخدام مناهج الاقتصاد القياسي التقليدية.

    يجعل تحليل الكتلة من الممكن النظر في كمية كبيرة بما فيه الكفاية من المعلومات وتقليل وضغط مجموعات كبيرة من المعلومات الاجتماعية والاقتصادية بشكل كبير ، مما يجعلها مضغوطة ومرئية.

    يعتبر التحليل العنقودي ذا أهمية كبيرة فيما يتعلق بمجموعات السلاسل الزمنية التي تميز التنمية الاقتصادية (على سبيل المثال ، الظروف الاقتصادية العامة والسلع). هنا من الممكن تحديد الفترات التي كانت فيها قيم المؤشرات المقابلة قريبة جدًا ، وكذلك تحديد مجموعات السلاسل الزمنية ، والتي تكون ديناميكياتها متشابهة إلى حد كبير.

    يمكن استخدام التحليل العنقودي بشكل دوري. في هذه الحالة ، يتم إجراء الدراسة حتى يتم تحقيق النتائج المرجوة. في الوقت نفسه ، يمكن أن توفر كل دورة هنا معلومات يمكن أن تغير بشكل كبير اتجاه وأساليب التطبيق الإضافي لتحليل الكتلة. يمكن تمثيل هذه العملية كنظام تغذية مرتدة.

    في مشاكل التنبؤ الاجتماعي والاقتصادي ، من الواعد جدًا الجمع بين التحليل العنقودي والأساليب الكمية الأخرى (على سبيل المثال ، مع تحليل الانحدار).

    مثل أي طريقة أخرى ، فإن تحليل الكتلة له عيوب وقيود معينة: على وجه الخصوص ، يعتمد تكوين المجموعات وعددها على معايير التقسيم المختارة. عند تقليل مجموعة البيانات الأولية إلى نموذج أكثر إحكاما ، قد تحدث بعض التشوهات ، وقد يتم أيضًا فقد الميزات الفردية للكائنات الفردية بسبب استبدالها بخصائص القيم المعممة لمعلمات الكتلة. عند تصنيف الكائنات ، في كثير من الأحيان يتم تجاهل إمكانية عدم وجود أي قيم مجموعة في المجموعة المدروسة.

    في تحليل الكتلة ، يعتبر:

    أ) تسمح الخصائص المختارة ، من حيث المبدأ ، بالتكتل المطلوب ؛

    ب) يتم اختيار وحدات القياس (المقياس) بشكل صحيح.

    يلعب اختيار المقياس دورًا كبيرًا. عادةً ما يتم تطبيع البيانات بطرح المتوسط ​​والقسمة على الانحراف المعياري بحيث يكون التباين مساويًا لواحد.

    مشكلة التحليل العنقودي.

    تتمثل مهمة تحليل الكتلة في تقسيم مجموعة الكائنات G إلى m (m هو عدد صحيح) عناقيد (مجموعات فرعية) Q1 ، Q2 ، ... ، Qm ، بناءً على البيانات الموجودة في المجموعة X ، بحيث يكون كل كائن Gj ينتمي إلى مجموعة فرعية واحدة وقسم واحد فقط وأن الكائنات التي تنتمي إلى نفس المجموعة متشابهة ، في حين أن الكائنات التي تنتمي إلى مجموعات مختلفة غير متجانسة.

    على سبيل المثال ، لنفترض أن G تشمل n من البلدان ، كل منها يتميز بنصيب الفرد من الناتج القومي الإجمالي (F1) ، وعدد السيارات لكل 1000 شخص (F2) ، ونصيب الفرد من استهلاك الكهرباء (F3) ، ونصيب الفرد من استهلاك الصلب (F4) ، إلخ. ثم X1 (متجه القياس) هي مجموعة من الخصائص المحددة للبلد الأول ، X2 للبلد الثاني ، X3 للبلد الثالث ، وهكذا. التحدي هو تقسيم البلدان حسب مستوى التنمية.

    حل مشكلة التحليل العنقودي هو أقسام تفي بمعيار أمثل معين. يمكن أن يكون هذا المعيار وظيفيًا يعبر عن مستويات الرغبة في الأقسام والتجمعات المختلفة ، والتي تسمى الوظيفة الموضوعية. على سبيل المثال ، يمكن أخذ مجموع الانحرافات التربيعية داخل المجموعة كوظيفة موضوعية:

    حيث x - يمثل قياسات الكائن j.

    لحل مشكلة التحليل العنقودي ، من الضروري تحديد مفهوم التشابه وعدم التجانس.

    من الواضح أن الكائنين i-th و j-th سيقعان في نفس المجموعة عندما تكون المسافة (المسافة) بين النقطتين Xi و Xj صغيرة بدرجة كافية وستقع في مجموعات مختلفة عندما تكون هذه المسافة كبيرة بدرجة كافية. وبالتالي ، فإن الدخول في مجموعة واحدة أو مجموعات مختلفة من الكائنات يتم تحديده من خلال مفهوم المسافة بين Xi و Xj من Ep ، حيث Ep هو فضاء إقليدي ذو أبعاد p. تسمى الوظيفة غير السالبة d (Xi، Xj) وظيفة المسافة (متري) إذا:

    أ) د (Xi ، Xj) ³ 0 ، لجميع Xi و Xj من Ep

    ب) د (Xi، Xj) = 0 فقط إذا كان Xi = Xj

    ج) د (Xi، Xj) = د (X، Xi)

    د) د (Xi، Xj) £ d (Xi، Xk) + d (Xk، Xj) حيث Xj ؛ Xi و Xk هما أي ثلاثة ناقلات من Ep.

    تسمى القيمة d (Xi ، Xj) لـ Xi و Xj المسافة بين Xi و Xj وهي تعادل المسافة بين Gi و Gj وفقًا للخصائص المحددة (F1 ، F2 ، F3 ، ... ، Fp).

    وظائف المسافة الأكثر استخدامًا هي:

    1. المسافة الإقليدية d2 (i، Хj) =

    2. l1 - القاعدة d1 (i، Хj) =

    3. Supremum - القاعدة d ¥ (i، Хj) = sup

    ك = 1 ، 2 ، ... ، ص

    4. lp - القاعدة dр (i، Хj) =

    المقياس الإقليدي هو الأكثر شيوعًا. المقياس l1 هو أسهل طريقة للحساب. من السهل حساب القاعدة العليا وتتضمن إجراء طلب ، بينما يغطي معيار lp وظائف المسافة 1 ، 2 ، 3 ،.

    دع قياسات n X1 ، X2 ، ... ، Xn يتم تمثيلها كمصفوفة بيانات p n:

    ثم يمكن تمثيل المسافة بين أزواج المتجهات d (i ، Хj) كمصفوفة مسافة متناظرة:

    المفهوم المعاكس للمسافة هو مفهوم التشابه بين كائنات Gi. و Gj. الوظيفة الحقيقية غير السلبية S (i ؛ Хj) = Sij تسمى مقياس التشابه إذا:

    1) 0 جنيهاً استرلينياً (Xi، Xj)<1 для Хi¹ Хj

    2) S (Хi، Хi) = 1

    3) S (Xi، Xj) = S (X، Xi)

    يمكن دمج أزواج من قيم قياس التشابه في مصفوفة تشابه:

    تسمى قيمة Sij بمعامل التشابه.

    1.3 طرق التحليل العنقودي.

    يوجد اليوم العديد من طرق التحليل العنقودي. دعونا نتناول بعضًا منها (تسمى الطرق الواردة أدناه عادةً طرق الحد الأدنى من التباين).

    لنفترض أن X هي مصفوفة الملاحظة: X = (X1، X2، ...، Xu) ويتم تحديد مربع المسافة الإقليدية بين Xi و Xj بالصيغة:

    1) طريقة التوصيلات الكاملة.

    جوهر هذه الطريقة هو أن كائنين ينتميان إلى نفس المجموعة (الكتلة) لهما معامل تشابه أقل من قيمة عتبة معينة S. من حيث المسافة الإقليدية d ، وهذا يعني أن المسافة بين نقطتين (كائنات) من يجب ألا يتجاوز الكتلة بعض قيمة العتبة h. وبالتالي ، يحدد h الحد الأقصى المسموح به للقطر لمجموعة فرعية تشكل كتلة.

    2) طريقة أقصى مسافة محلية.

    يعتبر كل كائن بمثابة كتلة من نقطة واحدة. يتم تجميع الكائنات وفقًا للقاعدة التالية: يتم دمج مجموعتين إذا كانت المسافة القصوى بين نقاط مجموعة ونقاط مجموعة أخرى ضئيلة. يتكون الإجراء من خطوات n - 1 والنتائج في أقسام تتطابق مع جميع الأقسام الممكنة في الطريقة السابقة لأي قيم حدية.

    3) طريقة الكلمة.

    في هذه الطريقة ، يتم استخدام مجموع الانحرافات التربيعية داخل المجموعة كدالة موضوعية ، والتي لا تزيد عن مجموع المسافات المربعة بين كل نقطة (كائن) ومتوسط ​​الكتلة التي تحتوي على هذا الكائن. في كل خطوة ، يتم دمج مجموعتين تؤديان إلى الحد الأدنى من الزيادة في الوظيفة الهدف ، أي مجموع المربعات intragroup. تهدف هذه الطريقة إلى الجمع بين العناقيد المتقاربة.

    تحيات!

    في رسالتي ، أجريت مراجعة وتحليل مقارن لخوارزميات تجميع البيانات. اعتقدت أن المواد التي تم جمعها وعملها بالفعل قد تكون ممتعة ومفيدة لشخص ما.
    تحدث ساشايف عن ماهية التجميع في مقال "Clustering: خوارزميات k-mean و c-mean". سأكرر كلمات الإسكندر جزئيًا ، ملحقًا جزئيًا. أيضًا في نهاية هذه المقالة ، يمكن للمهتمين قراءة المواد الموجودة على الروابط الموجودة في قائمة المراجع.

    حاولت أيضًا إضفاء أسلوب "الدبلومة" الجاف في التقديم إلى أسلوب أكثر صحفيًا.

    مفهوم التجميع

    التجميع (أو تحليل الكتلة) هو مهمة تقسيم مجموعة من الكائنات إلى مجموعات تسمى المجموعات العنقودية. يجب أن تكون هناك أشياء "متشابهة" داخل كل مجموعة ، ويجب أن تكون أهداف المجموعات المختلفة مختلفة قدر الإمكان. يتمثل الاختلاف الرئيسي بين التجميع والتصنيف في أن قائمة المجموعات غير محددة بوضوح ويتم تحديدها في سياق الخوارزمية.

    يتم تقليل تطبيق التحليل العنقودي بشكل عام إلى الخطوات التالية:

    1. اختيار عينة من الكائنات للتجميع.
    2. تحديد مجموعة من المتغيرات التي سيتم من خلالها تقييم الكائنات في العينة. إذا لزم الأمر ، قم بتطبيع قيم المتغيرات.
    3. حساب التشابه يقيس القيم بين الأشياء.
    4. تطبيق طريقة التحليل العنقودي لإنشاء مجموعات من الكائنات المتشابهة (العناقيد).
    5. عرض نتائج التحليل.
    بعد تلقي النتائج وتحليلها ، من الممكن تعديل المقياس المختار وطريقة التجميع حتى يتم الحصول على النتيجة المثلى.

    مقاييس المسافة

    إذن ، كيف نحدد "تشابه" الأشياء؟ تحتاج أولاً إلى عمل متجه للخصائص لكل كائن - كقاعدة عامة ، هذه مجموعة من القيم الرقمية ، على سبيل المثال ، ارتفاع وزن الشخص. ومع ذلك ، هناك أيضًا خوارزميات تعمل مع الخصائص النوعية (ما يسمى الفئوية).

    بمجرد تحديد متجه الميزة ، يمكننا تطبيعه بحيث تساهم جميع المكونات بالتساوي في حساب "المسافة". أثناء عملية التسوية ، يتم تقليل جميع القيم إلى نطاق ما ، على سبيل المثال ، [-1 ، -1] أو.

    أخيرًا ، لكل زوج من العناصر ، يتم قياس "المسافة" بينهما - درجة التشابه. هناك العديد من المقاييس ، وهنا فقط المقاييس الرئيسية:

    اختيار المقياس متروك تمامًا للباحث ، نظرًا لأن نتائج التجميع يمكن أن تختلف بشكل كبير عند استخدام مقاييس مختلفة.

    تصنيف الخوارزميات

    بنفسي ، لقد حددت تصنيفين رئيسيين لخوارزميات التجميع.
    1. هرمي ومسطح.
      لا تقوم الخوارزميات الهرمية (تسمى أيضًا خوارزميات التصنيف) ببناء قسم واحد من العينة في مجموعات منفصلة ، ولكن نظام من الأقسام المتداخلة. الذي - التي. عند الإخراج ، نحصل على شجرة عنقودية ، يكون جذرها هو العينة بأكملها ، والأوراق هي أصغر العناقيد.
      تبني الخوارزميات المسطحة قسمًا واحدًا من الكائنات في مجموعات.
    2. واضح وغامض.
      تقوم الخوارزميات الواضحة (أو غير المتداخلة) بتعيين رقم مجموعة لكل كائن عينة ، أي كل كائن ينتمي إلى مجموعة واحدة فقط. تقوم الخوارزميات الضبابية (أو المتقاطعة) بتعيين كل كائن مجموعة من القيم الحقيقية التي توضح درجة علاقة الكائن بالعناقيد. أولئك. كل كائن ينتمي إلى كل مجموعة مع بعض الاحتمالات.

    دمج المجموعات

    في حالة استخدام الخوارزميات الهرمية ، فإن السؤال الذي يطرح نفسه هو كيفية الجمع بين المجموعات مع بعضها البعض ، وكيفية حساب "المسافات" بينها. هناك عدة مقاييس:
    1. رابط واحد (أقرب المسافات المجاورة)
      في هذه الطريقة ، يتم تحديد المسافة بين مجموعتين من خلال المسافة بين أقرب كائنين (أقرب جيران) في مجموعات مختلفة. تميل المجموعات الناتجة إلى السلسلة معًا.
    2. رابط كامل (مسافة أبعد الجيران)
      في هذه الطريقة ، يتم تحديد المسافات بين المجموعات من خلال أكبر مسافة بين أي كائنين في مجموعات مختلفة (أي ، الجيران الأبعد). تعمل هذه الطريقة عادةً بشكل جيد جدًا عندما تأتي الكائنات من مجموعات منفصلة. إذا كانت المجموعات ممدودة أو كان نوعها الطبيعي هو "سلسلة" ، فهذه الطريقة غير مناسبة.
    3. يعني الزوج غير مرجح
      في هذه الطريقة ، يتم حساب المسافة بين مجموعتين مختلفتين على أنها متوسط ​​المسافة بين جميع أزواج الكائنات الموجودة فيها. تكون الطريقة فعالة عندما تشكل الكائنات مجموعات مختلفة ، ولكنها تعمل بشكل جيد بنفس القدر في حالات الكتل الممتدة (نوع "السلسلة").
    4. مرجح الزوجي يعني
      تتطابق هذه الطريقة مع طريقة المتوسط ​​الزوجي غير الموزون ، باستثناء أن حجم المجموعات المعنية (أي عدد العناصر التي تحتوي عليها) يُستخدم كعامل ترجيح في الحسابات. لذلك ، يجب استخدام هذه الطريقة عند توقع أحجام غير متكافئة للكتل.
    5. طريقة النقطه الوسطى غير مرجح
      في هذه الطريقة ، يتم تعريف المسافة بين مجموعتين على أنها المسافة بين مركزي جاذبيتهم.
    6. طريقة النقطه الوسطى المرجحة (الوسيط)
      هذه الطريقة مماثلة للطريقة السابقة ، باستثناء أن الحسابات تستخدم أوزانًا لحساب الاختلافات بين أحجام الكتلة. لذلك ، إذا كانت هناك اختلافات كبيرة في أحجام الكتلة أو يشتبه في وجودها ، فإن هذه الطريقة هي الأفضل من الطريقة السابقة.

    نظرة عامة على الخوارزميات

    خوارزميات التجميع الهرمي
    هناك نوعان رئيسيان من خوارزميات التجميع الهرمي: خوارزميات تصاعدي وتنازلي. تعمل الخوارزميات من أعلى إلى أسفل على أساس تنازلي: في البداية ، يتم وضع جميع الكائنات في مجموعة واحدة ، والتي يتم تقسيمها بعد ذلك إلى مجموعات أصغر وأصغر. الأكثر شيوعًا هي الخوارزميات التصاعدية التي تضع في البداية كل ميزة في مجموعة منفصلة ثم تدمج المجموعات في مجموعات أكبر وأكبر حتى يتم تضمين جميع الميزات التي تم أخذ عينات منها في نفس المجموعة. وبالتالي ، يتم إنشاء نظام الأقسام المتداخلة. عادة ما يتم تقديم نتائج هذه الخوارزميات في شكل شجرة - مخطط شجر. المثال الكلاسيكي لمثل هذه الشجرة هو تصنيف الحيوانات والنباتات.

    لحساب المسافات بين المجموعات ، غالبًا ما يستخدم الجميع مسافتين: اتصال واحد أو اتصال كامل (انظر نظرة عامة على مقاييس المسافة بين المجموعات).

    عيب الخوارزميات الهرمية هو نظام الأقسام الكاملة ، والتي قد تكون زائدة عن الحاجة في سياق المشكلة التي يتم حلها.

    خوارزميات الخطأ التربيعي
    يمكن اعتبار مشكلة التجميع على أنها إنشاء تقسيم أمثل للكائنات إلى مجموعات. في هذه الحالة ، يمكن تعريف الأمثلية على أنها شرط لتقليل خطأ تقسيم الجذر التربيعي:

    أين سي جيه- "مركز الكتلة" للكتلة ي(نقطة مع متوسط ​​قيم الخصائص لمجموعة معينة).

    خوارزميات الخطأ التربيعية هي من نوع الخوارزميات المسطحة. الخوارزمية الأكثر شيوعًا في هذه الفئة هي طريقة k-mean. تبني هذه الخوارزمية عددًا معينًا من المجموعات الموجودة في أقصى مسافة ممكنة. ينقسم عمل الخوارزمية إلى عدة مراحل:

    1. اختر عشوائيا كالنقاط التي تمثل "مراكز الكتلة" الأولية للعناقيد.
    2. قم بتعيين كل كائن إلى الكتلة مع أقرب "مركز كتلة".
    3. أعد حساب "مراكز الكتلة" للعناقيد وفقًا لتكوينها الحالي.
    4. إذا لم يتم استيفاء معيار إيقاف الخوارزمية ، فارجع إلى الخطوة 2.
    كمعيار لإيقاف تشغيل الخوارزمية ، عادة ما يتم اختيار الحد الأدنى من التغيير في متوسط ​​الخطأ التربيعي. من الممكن أيضًا إيقاف الخوارزمية إذا لم تكن هناك كائنات في الخطوة 2 تنتقل من كتلة إلى أخرى.

    تشمل عيوب هذه الخوارزمية الحاجة إلى تحديد عدد المجموعات للتقسيم.

    خوارزميات ضبابية
    أكثر خوارزمية التجميع الضبابي شيوعًا هي خوارزمية الوسيلة c. إنه تعديل لطريقة k-mean. خطوات الخوارزمية:

    قد لا تكون هذه الخوارزمية مناسبة إذا كان عدد المجموعات غير معروف مسبقًا ، أو إذا كان من الضروري إسناد كل كائن بشكل فريد إلى مجموعة واحدة.
    الخوارزميات على أساس نظرية الرسم البياني
    جوهر هذه الخوارزميات هو أن اختيار الأشياء يتم تمثيله كرسم بياني G = (الخامس ، هـ)، التي تتوافق رؤوسها مع الأشياء ، ولها وزن يساوي "المسافة" بين الكائنات. تتمثل ميزة خوارزميات تجميع الرسم البياني في الوضوح والسهولة النسبية للتنفيذ وإمكانية إجراء تحسينات متنوعة بناءً على الاعتبارات الهندسية. الخوارزميات الرئيسية هي الخوارزمية لاستخراج المكونات المتصلة ، وخوارزمية إنشاء الحد الأدنى من الشجرة الممتدة (الممتدة) ، وخوارزمية التجميع الطبقي.
    خوارزمية لاستخراج المكونات المتصلة
    في خوارزمية استخراج المكونات المتصلة ، يتم تعيين معلمة الإدخال صوفي الرسم البياني جميع الحواف التي تكون "مسافاتها" أكبر من ص. تبقى أزواج الكائنات الأقرب فقط متصلة. الغرض من الخوارزمية هو إيجاد مثل هذه القيمة ص، والتي تقع في نطاق جميع "المسافات" ، حيث "ينقسم" الرسم البياني إلى عدة مكونات متصلة. المكونات الناتجة هي العناقيد.

    لتحديد معلمة صعادة ما يتم إنشاء رسم بياني لتوزيعات المسافات الزوجية. في المهام ذات بنية بيانات الكتلة المحددة جيدًا ، سيكون للرسم البياني ذروتين - أحدهما يتوافق مع المسافات داخل الكتلة ، والثاني - للمسافات بين المجموعات. معامل صمن منطقة الحد الأدنى بين هذه القمم. في الوقت نفسه ، من الصعب جدًا التحكم في عدد المجموعات باستخدام عتبة المسافة.

    الحد الأدنى من خوارزمية شجرة الامتداد
    تقوم خوارزمية الشجرة الممتدة الدنيا أولاً ببناء الحد الأدنى من الشجرة الممتدة على الرسم البياني ثم تزيل بالتتابع الحواف ذات الوزن الأعلى. يوضح الشكل الحد الأدنى للشجرة الممتدة التي تم الحصول عليها لتسع ميزات.

    بإزالة الرابط المسمى CD بطول 6 وحدات (الحافة بأقصى مسافة) ، نحصل على مجموعتين: (A ، B ، C) و (D ، E ، F ، G ، H ، I). يمكن تقسيم المجموعة الثانية إلى مجموعتين أخريين عن طريق إزالة الحافة EF التي يبلغ طولها 4.5 وحدة.

    التجميع الطبقي
    تعتمد خوارزمية التجميع طبقة تلو الأخرى على تحديد مكونات الرسم البياني المتصلة عند مستوى معين من المسافات بين الكائنات (الرؤوس). يتم تعيين مستوى المسافة من خلال عتبة المسافة ج. على سبيل المثال ، إذا كانت المسافة بين الأشياء ، ومن بعد .

    تنشئ خوارزمية التجميع الطبقية سلسلة من الرسوم البيانية الفرعية جي، والتي تعكس العلاقات الهرمية بين المجموعات:

    ,

    أين G t = (V ، E t)- مستوى الرسم البياني مع ر,
    ,
    مع ر- عتبة المسافة t ،
    م هو عدد مستويات التسلسل الهرمي ،
    G 0 = (الخامس ، س)، o هي المجموعة الفارغة من حواف الرسم البياني التي تم الحصول عليها بواسطة t0 = 1,
    ز م = ز، أي رسم بياني للكائنات دون قيود على المسافة (طول حواف الرسم البياني) ، منذ ذلك الحين تم = 1.

    عن طريق تغيير عتبات المسافة ( مع 0 ، ... ، مع م) ، حيث 0 = من 0 < من 1 < …< مع م= 1 ، من الممكن التحكم في عمق التسلسل الهرمي للمجموعات الناتجة. وبالتالي ، فإن خوارزمية التجميع طبقة تلو الأخرى قادرة على إنشاء قسم بيانات مسطح وقسم هرمي.

    مقارنة الخوارزمية

    التعقيد الحسابي للخوارزميات

    جدول مقارن للخوارزميات
    خوارزمية التجميع شكل العناقيد ادخال البيانات النتائج
    الهرمية حر عدد المجموعات أو عتبة المسافة لاقتطاع التسلسل الهرمي شجرة ثنائية من العناقيد
    ك يعني فرط عدد العناقيد مراكز الكتلة
    ج - الوسائل فرط عدد العناقيد ودرجة الضبابية مراكز الكتلة ، مصفوفة العضوية
    تحديد المكونات المتصلة حر عتبة المسافة R
    الحد الأدنى الشجرة الممتدة حر عدد المجموعات أو عتبة المسافة لإزالة الحواف هيكل الشجرة من العناقيد
    التجميع الطبقي حر تسلسل عتبات المسافة هيكل شجرة من مجموعات مع مستويات مختلفة من التسلسل الهرمي

    قليلا عن التطبيق

    في عملي ، كنت بحاجة إلى تحديد مناطق منفصلة عن الهياكل الهرمية (الأشجار). أولئك. في الأساس ، كان من الضروري قطع الشجرة الأصلية إلى عدة أشجار أصغر. نظرًا لأن الشجرة الموجهة هي حالة خاصة للرسم البياني ، فإن الخوارزميات القائمة على نظرية الرسم البياني مناسبة بشكل طبيعي.

    على عكس الرسم البياني المتصل بالكامل ، ليست كل الرؤوس في الشجرة الموجهة متصلة بالحواف ، والعدد الإجمالي للحواف هو n – 1 ، حيث n هو عدد الرؤوس. أولئك. فيما يتعلق بعقد الشجرة ، سيتم تبسيط عملية الخوارزمية لاستخراج المكونات المتصلة ، حيث إن إزالة أي عدد من الحواف ستؤدي إلى "تقسيم" الشجرة إلى مكونات متصلة (أشجار منفصلة). سيتزامن الحد الأدنى من خوارزمية الشجرة الممتدة في هذه الحالة مع خوارزمية استخراج المكونات المتصلة - عن طريق إزالة الحواف الأطول ، يتم تقسيم الشجرة الأصلية إلى عدة أشجار. في هذه الحالة ، من الواضح أنه تم تخطي مرحلة بناء الحد الأدنى من الشجرة الممتدة.

    في حالة استخدام خوارزميات أخرى ، يجب أن يأخذوا في الاعتبار بشكل منفصل وجود العلاقات بين الكائنات ، مما يعقد الخوارزمية.

    بشكل منفصل ، أود أن أقول أنه من أجل تحقيق أفضل نتيجة ، من الضروري تجربة اختيار مقاييس المسافة ، وفي بعض الأحيان تغيير الخوارزمية. لا يوجد حل واحد.

    نعلم أن الأرض هي أحد الكواكب الثمانية التي تدور حول الشمس. الشمس مجرد نجم من بين حوالي 200 مليار نجم في مجرة ​​درب التبانة. من الصعب جدًا فهم هذا الرقم. بمعرفة هذا ، يمكن للمرء أن يفترض عدد النجوم في الكون - حوالي 4 × 10 ^ 22. يمكننا أن نرى حوالي مليون نجم في السماء ، على الرغم من أن هذا ليس سوى جزء صغير من العدد الفعلي للنجوم. إذن لدينا سؤالان:

    1. ما هي المجرة؟
    2. وما علاقة المجرات بموضوع المقال (التحليل العنقودي)؟


    المجرة عبارة عن مجموعة من النجوم والغاز والغبار والكواكب والسحب بين النجوم. عادة ما تشبه المجرات الشكل الحلزوني أو التمهيدي. في الفضاء ، يتم فصل المجرات عن بعضها البعض. غالبًا ما تكون الثقوب السوداء الضخمة هي مراكز معظم المجرات.

    كما سنناقش في القسم التالي ، هناك العديد من أوجه التشابه بين تحليل المجرات والعنقود. توجد المجرات في الفضاء ثلاثي الأبعاد ، والتحليل العنقودي هو تحليل متعدد الأبعاد يتم إجراؤه في الفضاء ذي الأبعاد n.

    الملاحظة: الثقب الأسود هو مركز المجرة. سوف نستخدم فكرة مماثلة للنقط الوسطى لتحليل الكتلة.

    التحليل العنقودي

    لنفترض أنك رئيس التسويق وعلاقات العملاء في شركة اتصالات. أنت تدرك أن جميع العملاء مختلفون وأنك بحاجة إلى استراتيجيات مختلفة للوصول إلى عملاء مختلفين. سوف تقدر قوة هذه الأداة مثل تقسيم العملاء لتحسين التكاليف. لصقل معرفتك بتحليل الكتلة ، ضع في اعتبارك المثال التالي ، الذي يوضح 8 عملاء ومتوسط ​​مدة المحادثة (محليًا ودوليًا). فيما يلي البيانات:

    للحصول على تصور أفضل ، دعنا نرسم رسمًا بيانيًا حيث سيكون المحور السيني هو متوسط ​​مدة المكالمات الدولية ، والمحور الصادي - متوسط ​​مدة المكالمات المحلية. يوجد أدناه الرسم البياني:

    الملاحظة: هذا مشابه لتحليل موقع النجوم في سماء الليل (هنا يتم استبدال النجوم بالمستهلكين). بالإضافة إلى ذلك ، بدلاً من مساحة ثلاثية الأبعاد ، لدينا مساحة ثنائية الأبعاد ، محددة بمدة المكالمات المحلية والدولية ، كمحور x و y.
    الآن ، عند الحديث عن المجرات ، تمت صياغة المشكلة على النحو التالي - للعثور على موقع الثقوب السوداء ؛ في التحليل العنقودي يطلق عليهم النقط الوسطى. للكشف عن النقط الوسطى ، سنبدأ بأخذ النقاط التعسفية كموقف للنقط الوسطى.

    المسافة الإقليدية لإيجاد النقط المركزية للعناقيد

    في حالتنا ، سنضع عشوائياً نقطتين (C1 و C2) عند النقاط ذات الإحداثيات (1 ، 1) و (3 ، 4). لماذا اخترنا هذين النقطتين الوسطى؟ يظهر لنا العرض المرئي للنقاط على الرسم البياني أن هناك مجموعتين سنقوم بتحليلهما. ومع ذلك ، سنرى لاحقًا أن الإجابة على هذا السؤال لن تكون بهذه البساطة لمجموعة كبيرة من البيانات.
    بعد ذلك ، سنقيس المسافة بين النقطتين الوسطى (C1 و C2) وجميع النقاط على الرسم البياني باستخدام صيغة إقليدس لإيجاد المسافة بين نقطتين.

    ملاحظة: يمكن أيضًا حساب المسافة باستخدام معادلات أخرى ، على سبيل المثال ،

    1. مربع المسافة الإقليدية - لإعطاء وزن للأشياء البعيدة عن بعضها البعض
    2. مسافة مانهاتن - للحد من تأثير الانبعاثات
    3. مسافة القدرة - لزيادة / تقليل التأثير على إحداثيات محددة
    4. نسبة الخلاف - للحصول على بيانات فئوية
    5. وإلخ.
    العمود 3 و 4 (المسافة من C1 و C2) هما المسافة المحسوبة باستخدام هذه الصيغة. على سبيل المثال ، للمستخدم الأول

    يتم حساب الانتماء إلى النقط الوسطى (العمود الأخير) وفقًا لمبدأ القرب من النقط الوسطى (C1 و C2). المستهلك الأول أقرب إلى النقطه الوسطى # 1 (1.41 مقارنة بـ 2.24) وبالتالي ينتمي إلى المجموعة مع النقطه الوسطى C1.

    يوجد أدناه رسم بياني يوضح النقطتين الوسطى C1 و C2 (تم تصويرهما على أنهما ماسة زرقاء وبرتقالية). يتم عرض المستهلكين بلون النقطه الوسطى المقابلة التي تم تعيينهم لها.

    نظرًا لأننا اخترنا النقط الوسطى بشكل تعسفي ، فإن الخطوة الثانية هي جعل هذا الخيار تكراريًا. يتم اختيار الموضع الجديد للنقط الوسطى كمتوسط ​​لنقاط المجموعة المقابلة. لذلك ، على سبيل المثال ، بالنسبة للنقطة الوسطى الأولى (هؤلاء هم المستهلكون 1 و 2 و 3). لذلك ، فإن إحداثي x الجديد للنقطة الوسطى C1 هو متوسط ​​إحداثيات x لهؤلاء المستهلكين (2 + 1 + 1) / 3 = 1.33. سنحصل على إحداثيات جديدة لـ C1 (1.33 ، 2.33) و C2 (4.4 ، 4.2) ، المؤامرة الجديدة أدناه:

    أخيرًا ، سنضع النقط الوسطى في وسط المجموعة المعنية. الجدول في الأسفل:

    مواضع الثقوب السوداء (مراكز الكتلة) في مثالنا هي C1 (1.75 ، 2.25) و C2 (4.75 ، 4.75). المجموعتان أعلاه تشبهان مجرتين منفصلتين في الفضاء عن بعضهما البعض.

    لذلك ، دعونا نلقي نظرة على الأمثلة أكثر. دعونا نواجه مهمة تقسيم المستهلكين وفقًا لمعيارين: العمر والدخل. لنفترض أن لدينا مستهلكين تتراوح أعمارهم بين 37 و 44 بدخل 90 ألف دولار و 62 ألف دولار على التوالي. إذا أردنا قياس المسافة الإقليدية بين النقطتين (37 ، 90000) و (44 ، 62000) ، فسنرى أنه في هذه الحالة "يهيمن" متغير الدخل على متغير العمر ويؤثر تغييره بشدة على المسافة. نحتاج إلى نوع من الإستراتيجية لحل هذه المشكلة ، وإلا فإن تحليلنا سيعطي نتيجة غير صحيحة. الحل لهذه المشكلة هو رفع قيمنا إلى مقاييس مماثلة. التطبيع هو الحل لمشكلتنا.

    تطبيع البيانات

    هناك العديد من الأساليب لتطبيع البيانات. على سبيل المثال ، التطبيع بين الحد الأدنى والحد الأقصى. لهذا التطبيع ، يتم استخدام الصيغة التالية

    في هذه الحالة ، X * هي قيمة طبيعية ، الحد الأدنى والحد الأقصى للإحداثيات الدنيا والأقصى على المجموعة X بأكملها
    (ملاحظة ، هذه الصيغة تضع جميع الإحداثيات في المقطع)
    تأمل في مثالنا ، دع الحد الأقصى للدخل 130 ألف دولار والحد الأدنى 45 ألف دولار. القيمة الطبيعية للدخل للمستهلك أ هي

    سنقوم بهذا التمرين لجميع النقاط لكل متغير (تنسيق). دخل المستهلك الثاني (62000) سيصبح 0.2 بعد إجراء التطبيع. بالإضافة إلى ذلك ، يجب أن يكون الحد الأدنى والحد الأقصى للعمر 23 و 58 على التوالي. بعد التطبيع ، ستكون أعمار مستهلكينا 0.4 و 0.6.

    من السهل ملاحظة أن جميع بياناتنا الآن تتراوح بين 0 و 1. لذلك ، لدينا الآن مجموعات بيانات موحدة على مقاييس قابلة للمقارنة.

    تذكر ، قبل إجراء تحليل الكتلة ، من الضروري إجراء التطبيع.

    تحليل الكتلة هو

    يوم جيد. أنا هنا أحترم الأشخاص الذين يحبون عملهم.

    مكسيم ، صديقي ، ينتمي إلى هذه الفئة. يعمل باستمرار مع الأرقام ، ويحللها ، ويقدم التقارير ذات الصلة.

    بالأمس تناولنا الغداء معًا ، لذلك أخبرني لمدة نصف ساعة تقريبًا عن تحليل الكتلة - ما هو وفي أي الحالات يكون تطبيقه معقولًا وسريعًا. حسنا ماذا عني؟

    لدي ذاكرة جيدة ، لذلك سأزودك بكل هذه البيانات ، بالمناسبة ، والتي عرفتها بالفعل في شكلها الأصلي والأكثر إفادة.

    تم تصميم التحليل العنقودي لتقسيم مجموعة من الكائنات إلى مجموعات متجانسة (مجموعات أو فئات). هذه مهمة تصنيف البيانات متعدد المتغيرات.

    هناك حوالي 100 خوارزمية تجميع مختلفة ، ومع ذلك ، فإن الأكثر شيوعًا هي تحليل الكتلة الهرمي وتجميع الوسائل k.

    أين يتم تطبيق التحليل العنقودي؟ في التسويق ، هذا هو تقسيم المنافسين والمستهلكين.

    في الإدارة: تقسيم الموظفين إلى مجموعات ذات مستويات مختلفة من التحفيز ، تصنيف الموردين ، تحديد حالات الإنتاج المماثلة التي يحدث فيها الزواج.

    في الطب ، تصنيف الأعراض والمرضى والأدوية. في علم الاجتماع ، تقسيم المستجيبين إلى مجموعات متجانسة. في الواقع ، أثبت التحليل العنقودي نفسه جيدًا في جميع مجالات الحياة البشرية.

    يكمن جمال هذه الطريقة في أنها تعمل حتى في حالة وجود القليل من البيانات وعدم تلبية متطلبات الحالة الطبيعية لتوزيعات المتغيرات العشوائية والمتطلبات الأخرى للطرق الكلاسيكية للتحليل الإحصائي.

    دعونا نشرح جوهر التحليل العنقودي دون اللجوء إلى المصطلحات الصارمة:
    لنفترض أنك أجريت دراسة استقصائية للموظفين وتريد تحديد الطريقة الأكثر فعالية لإدارة موظفيك.

    أي أنك تريد تقسيم الموظفين إلى مجموعات واختيار أدوات التحكم الأكثر فاعلية لكل منهم. في الوقت نفسه ، يجب أن تكون الاختلافات بين المجموعات واضحة ، وداخل المجموعة ، يجب أن يكون المستجيبون متشابهين قدر الإمكان.

    لحل المشكلة ، يُقترح استخدام التحليل العنقودي الهرمي.

    نتيجة لذلك ، سوف نحصل على شجرة ، تبحث في أي منها يجب أن نقرر عدد الفئات (المجموعات) التي نريد تقسيم الموظفين إليها.

    لنفترض أننا قررنا تقسيم فريق العمل إلى ثلاث مجموعات ، ثم لدراسة المستجيبين الذين وقعوا في كل مجموعة ، نحصل على جهاز لوحي بالمحتوى التالي:


    دعونا نشرح كيف يتم تشكيل الجدول أعلاه. يحتوي العمود الأول على رقم المجموعة - المجموعة التي تنعكس بياناتها في الصف.

    على سبيل المثال ، الكتلة الأولى 80٪ ذكور. يقع 90٪ من المجموعة الأولى ضمن الفئة العمرية من 30 إلى 50 عامًا ، ويعتقد 12٪ من المستجيبين أن الفوائد مهمة جدًا. إلخ.

    دعنا نحاول عمل صور للمشاركين في كل مجموعة:

    1. المجموعة الأولى تتكون بشكل رئيسي من الرجال البالغين الذين يشغلون مناصب قيادية. الحزمة الاجتماعية (MED ، LGOTI ، وقت الفراغ) لا تهمهم. إنهم يفضلون الحصول على راتب جيد ، بدلاً من الحصول على مساعدة من صاحب العمل.
    2. المجموعة الثانية ، على العكس من ذلك ، تفضل الحزمة الاجتماعية. وهي تتألف بشكل رئيسي من "كبار السن" الذين يشغلون مناصب منخفضة. الراتب مهم بالتأكيد بالنسبة لهم ، ولكن هناك أولويات أخرى.
    3. المجموعة الثالثة هي "الأصغر". على عكس السابقتين ، هناك اهتمام واضح بالتعلم وفرص النمو المهني. هذه الفئة من الموظفين لديها فرصة جيدة لتجديد المجموعة الأولى قريبًا.

    وبالتالي ، عند التخطيط لحملة لإدخال أساليب فعالة لإدارة الموظفين ، من الواضح أنه في حالتنا من الممكن زيادة الحزمة الاجتماعية للمجموعة الثانية على حساب الأجور ، على سبيل المثال.

    إذا تحدثنا عن المتخصصين الذين يجب إرسالهم للتدريب ، فيمكننا بالتأكيد أن نوصي بالاهتمام بالمجموعة الثالثة.

    المصدر: http://www.nickart.spb.ru/analysis/cluster.php

    ميزات التحليل العنقودي

    الكتلة هي سعر الأصل في فترة زمنية معينة تم خلالها إجراء المعاملات. يتم الإشارة إلى الحجم الناتج للمشتريات والمبيعات برقم داخل الكتلة.

    يحتوي شريط أي TF ، كقاعدة عامة ، على عدة مجموعات. يتيح لك هذا الاطلاع بالتفصيل على أحجام المشتريات والمبيعات وتوازنها في كل شريط على حدة ، لكل مستوى سعر.


    التغيير في سعر أحد الأصول يستلزم حتمًا سلسلة من تحركات الأسعار على الأدوات الأخرى أيضًا.

    انتباه!

    في معظم الحالات ، يحدث فهم حركة الاتجاه بالفعل في الوقت الذي تتطور فيه بسرعة ، ويكون دخول السوق على طول الاتجاه محفوفًا بالوقوع في موجة تصحيحية.

    بالنسبة للتداولات الناجحة ، من الضروري فهم الوضع الحالي والقدرة على توقع تحركات الأسعار المستقبلية. يمكن تعلم ذلك من خلال تحليل الرسم البياني العنقودي.

    بمساعدة تحليل الكتلة ، يمكنك رؤية نشاط المشاركين في السوق داخل أصغر شريط أسعار. هذا هو التحليل الأكثر دقة وتفصيلاً ، حيث يوضح التوزيع النقطي لأحجام المعاملات لكل مستوى من مستويات أسعار الأصول.

    في السوق هناك مواجهة مستمرة بين مصالح البائعين والمشترين. وكل حركة سعر صغيرة (علامة) هي الانتقال إلى حل وسط - مستوى السعر - الذي يناسب كلا الطرفين في الوقت الحالي.

    لكن السوق ديناميكي ، وعدد البائعين والمشترين يتغير باستمرار. إذا كان البائعون يهيمنون على السوق في وقت ما ، فعندئذٍ في اللحظة التالية ، على الأرجح ، سيكون هناك مشترون.

    كما أن عدد المعاملات المكتملة عند مستويات الأسعار المجاورة ليس هو نفسه. ومع ذلك ، أولاً ، ينعكس وضع السوق في الحجم الإجمالي للمعاملات ، وبعد ذلك فقط على السعر.

    إذا رأيت تصرفات المشاركين المهيمنين في السوق (البائعين أو المشترين) ، فيمكنك التنبؤ بحركة السعر نفسها.

    لتطبيق تحليل الكتلة بنجاح ، تحتاج أولاً إلى فهم ماهية الكتلة والدلتا.


    تسمى الكتلة حركة السعر ، والتي تنقسم إلى مستويات تمت فيها المعاملات بأحجام معروفة. توضح الدلتا الفرق بين البيع والشراء الذي يحدث في كل مجموعة.

    تسمح لك كل مجموعة أو مجموعة دلتا بمعرفة ما إذا كان البائعون أو المشترون يهيمنون على السوق في وقت معين.

    يكفي فقط حساب إجمالي الدلتا من خلال جمع المبيعات والمشتريات. إذا كانت دلتا سلبية ، فإن السوق في ذروة البيع ، وهناك معاملات بيع زائدة عن الحاجة. عندما تكون الدلتا إيجابية ، فمن الواضح أن المشترين يهيمنون على السوق.

    يمكن أن تأخذ الدلتا نفسها قيمة عادية أو حرجة. يتم تمييز قيمة حجم دلتا فوق القيمة العادية في الكتلة باللون الأحمر.

    إذا كانت دلتا معتدلة ، فإن هذا يميز حالة ثابتة في السوق. مع قيمة دلتا العادية ، يتم ملاحظة حركة الاتجاه في السوق ، ولكن القيمة الحرجة دائمًا ما تكون نذيرًا لانعكاس السعر.

    تداول الفوركس مع CA

    للحصول على أقصى ربح ، يجب أن تكون قادرًا على تحديد انتقال دلتا من مستوى معتدل إلى مستوى عادي. في الواقع ، في هذه الحالة ، يمكنك ملاحظة بداية الانتقال من الحركة المستوية إلى حركة الاتجاه وتكون قادرًا على تحقيق أكبر قدر من الربح.

    الأكثر وضوحًا هو مخطط الكتلة ، حيث يمكنك رؤية مستويات كبيرة من تراكم الأحجام وتوزيعها ، وبناء مستويات الدعم والمقاومة. هذا يسمح للمتداول بالعثور على المدخل الدقيق للتجارة.

    باستخدام دلتا ، يمكن للمرء أن يحكم على هيمنة المبيعات أو المشتريات في السوق. يسمح لك تحليل الكتلة بمراقبة المعاملات وتتبع أحجامها داخل شريط أي TF.

    هذا مهم بشكل خاص عند الاقتراب من مستويات دعم أو مقاومة كبيرة. الأحكام العنقودية هي المفتاح لفهم السوق.

    المصدر: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

    مجالات وخصائص تطبيق التحليل العنقودي

    يتضمن مصطلح تحليل الكتلة (الذي قدمه تريون لأول مرة ، 1939) مجموعة من خوارزميات التصنيف المختلفة.

    السؤال الشائع الذي يطرحه الباحثون في العديد من المجالات هو كيفية تنظيم البيانات المرصودة في هياكل مرئية ، أي توسيع التصنيفات.

    وفقًا للنظام الحديث المتعارف عليه في علم الأحياء ، ينتمي الإنسان إلى الرئيسيات والثدييات والسلى والفقاريات والحيوانات.

    لاحظ أنه في هذا التصنيف ، كلما ارتفع مستوى التجميع ، قل التشابه بين الأعضاء في الفئة المقابلة.

    لدى الإنسان أوجه تشابه مع الرئيسيات الأخرى (أي القردة) أكثر من تشابهها مع أفراد عائلة الثدييات "البعيدة" (أي الكلاب) ، وهكذا.

    لاحظ أن المناقشة السابقة تشير إلى خوارزميات التجميع ، لكنها لا تذكر أي شيء عن اختبار الدلالة الإحصائية.

    في الواقع ، لا يعتبر تحليل الكتلة طريقة إحصائية عادية بقدر ما هو "مجموعة" من خوارزميات مختلفة "لتوزيع الأشياء في مجموعات".

    هناك وجهة نظر مفادها أنه على عكس العديد من الإجراءات الإحصائية الأخرى ، يتم استخدام طرق التحليل العنقودي في معظم الحالات عندما لا يكون لديك أي فرضيات مسبقة حول الفصول ، ولكنك لا تزال في المرحلة الوصفية للدراسة.

    انتباه!

    يجب أن يكون مفهوما أن تحليل الكتلة يحدد "القرار الأكثر أهمية على الأرجح".

    لذلك ، لا ينطبق اختبار الأهمية الإحصائية هنا حقًا ، حتى في الحالات التي تُعرف فيها مستويات p (كما في طريقة K-mean ، على سبيل المثال).

    تُستخدم تقنية التجميع في مجموعة متنوعة من المجالات. قدم Hartigan (1975) نظرة عامة ممتازة على العديد من الدراسات المنشورة التي تحتوي على النتائج التي تم الحصول عليها من خلال طرق التحليل العنقودي.

    على سبيل المثال ، في مجال الطب ، يؤدي تجميع الأمراض أو علاجها أو أعراض الأمراض إلى تصنيفات مستخدمة على نطاق واسع.

    في مجال الطب النفسي ، يعد التشخيص الصحيح لمجموعات الأعراض مثل جنون العظمة والفصام وما إلى ذلك أمرًا بالغ الأهمية لنجاح العلاج. في علم الآثار ، باستخدام التحليل العنقودي ، يحاول الباحثون إنشاء تصنيفات للأدوات الحجرية ، والأشياء الجنائزية ، وما إلى ذلك.

    هناك تطبيقات واسعة للتحليل العنقودي في أبحاث التسويق. بشكل عام ، كلما كان من الضروري تصنيف "جبال" المعلومات إلى مجموعات مناسبة لمزيد من المعالجة ، يتبين أن التحليل العنقودي مفيد للغاية وفعال.

    تجميع الأشجار

    يوضح المثال الموجود في قسم الغرض الأساسي الغرض من خوارزمية الصلة (تجميع الشجرة).

    الغرض من هذه الخوارزمية هو دمج الكائنات (على سبيل المثال ، الحيوانات) في مجموعات كبيرة بما يكفي باستخدام قدر من التشابه أو المسافة بين الكائنات. النتيجة النموذجية لمثل هذا التجميع هي شجرة هرمية.

    ضع في اعتبارك مخطط شجرة أفقي. يبدأ الرسم التخطيطي بكل كائن في الفصل (على الجانب الأيسر من الرسم التخطيطي).

    تخيل الآن أنك تدريجيًا (بخطوات صغيرة جدًا) "تضعف" معيارك فيما يتعلق بالأشياء الفريدة وغير المميزة.

    بمعنى آخر ، تقوم بتخفيض العتبة المتعلقة بقرار دمج كائنين أو أكثر في مجموعة واحدة.

    نتيجة لذلك ، تقوم بربط المزيد والمزيد من الكائنات معًا وتجميع (دمج) المزيد والمزيد من مجموعات العناصر المختلفة بشكل متزايد.

    أخيرًا ، في الخطوة الأخيرة ، يتم دمج جميع الكائنات معًا. في هذه المخططات ، تمثل المحاور الأفقية مسافة التجميع (في مخططات التخطيط العمودية ، تمثل المحاور الرأسية مسافة التجميع).

    لذلك ، بالنسبة لكل عقدة في الرسم البياني (حيث يتم تكوين كتلة جديدة) ، يمكنك رؤية مقدار المسافة التي ترتبط بها العناصر المقابلة في مجموعة واحدة جديدة.

    عندما تحتوي البيانات على "هيكل" واضح من حيث مجموعات العناصر المتشابهة مع بعضها البعض ، فمن المحتمل أن تنعكس هذه البنية في الشجرة الهرمية من خلال الفروع المختلفة.

    نتيجة للتحليل الناجح بواسطة طريقة الانضمام ، يصبح من الممكن اكتشاف الكتل (الفروع) وتفسيرها.

    يتم استخدام طريقة الاتحاد أو تجميع الأشجار في تكوين مجموعات من الاختلاف أو المسافة بين الكائنات. يمكن تحديد هذه المسافات في فضاء أحادي البعد أو متعدد الأبعاد.

    على سبيل المثال ، إذا كان يجب عليك تجميع أنواع الطعام في المقهى ، فيمكنك أن تأخذ في الاعتبار عدد السعرات الحرارية الموجودة فيه ، والسعر ، والتقييم الشخصي للذوق ، وما إلى ذلك.

    الطريقة الأكثر مباشرة لحساب المسافات بين الكائنات في فضاء متعدد الأبعاد هي حساب المسافات الإقليدية.

    إذا كان لديك مساحة ثنائية أو ثلاثية الأبعاد ، فإن هذا المقياس هو المسافة الهندسية الفعلية بين الكائنات في الفضاء (كما لو تم قياس المسافات بين الكائنات باستخدام شريط قياس).

    ومع ذلك ، فإن خوارزمية التجميع لا "تهتم" بما إذا كانت المسافات "المقدمة" لذلك حقيقية أو بعض مقاييس المسافة المشتقة الأخرى ، والتي تكون أكثر أهمية للباحث ؛ والتحدي الذي يواجه الباحثين هو اختيار الطريقة الصحيحة لتطبيقات محددة.

    المسافة الإقليدية.يبدو أن هذا هو النوع الأكثر شيوعًا للمسافات. إنها ببساطة مسافة هندسية في فضاء متعدد الأبعاد وتحسب على النحو التالي:

    لاحظ أنه يتم حساب المسافة الإقليدية (ومربعها) من البيانات الأصلية ، وليس من البيانات الموحدة.

    هذه هي الطريقة المعتادة لحسابها ، والتي لها مزايا معينة (على سبيل المثال ، لا تتغير المسافة بين كائنين عند إدخال كائن جديد في التحليل ، والذي قد يتحول إلى شيء غريب).

    انتباه!

    ومع ذلك ، يمكن أن تتأثر المسافات بشكل كبير بالاختلافات بين المحاور التي يتم من خلالها حساب المسافات. على سبيل المثال ، إذا تم قياس أحد المحاور بالسنتيمتر ، ثم قمت بتحويله إلى ملليمترات (بضرب القيم في 10) ، فإن المسافة الإقليدية النهائية (أو مربع المسافة الإقليدية) المحسوبة من الإحداثيات يتغير بشكل كبير ، ونتيجة لذلك ، يمكن أن تكون نتائج التحليل العنقودي مختلفة تمامًا عن النتائج السابقة.

    مربع المسافة الإقليدية.قد ترغب أحيانًا في ضبط المسافة الإقليدية القياسية لإعطاء وزن أكبر للأجسام البعيدة.

    يتم حساب هذه المسافة على النحو التالي:

    مسافة كتلة المدينة (مسافة مانهاتن).هذه المسافة هي ببساطة متوسط ​​الاختلافات على الإحداثيات.

    في معظم الحالات ، يؤدي قياس المسافة هذا إلى نفس النتائج مثل مسافة إقليدس المعتادة.

    ومع ذلك ، لاحظ أنه بالنسبة لهذا المقياس ، فإن تأثير الفروق الفردية الكبيرة (القيم المتطرفة) ينخفض ​​(لأنها ليست مربعة). يتم حساب مسافة مانهاتن باستخدام الصيغة:

    المسافة Chebyshev.يمكن أن تكون هذه المسافة مفيدة عندما يرغب المرء في تعريف كائنين على أنهما "مختلفان" إذا كانا يختلفان في أي إحداثي واحد (أي بعد واحد). يتم حساب مسافة Chebyshev بالصيغة:

    قوة المسافة.في بعض الأحيان يكون من المرغوب فيه زيادة الوزن أو إنقاصه تدريجيًا المرتبط بأبعاد تختلف فيها الكائنات المقابلة اختلافًا كبيرًا.

    يمكن تحقيق ذلك باستخدام مسافة قانون الطاقة. يتم حساب مسافة الطاقة بالصيغة:

    حيث r و p معلمات معرّفة من قبل المستخدم. يمكن لبعض الأمثلة الحسابية أن توضح كيف "يعمل" هذا المقياس.

    المعلمة p مسؤولة عن الترجيح التدريجي للاختلافات في الإحداثيات الفردية ، والمعلمة r مسؤولة عن الترجيح التدريجي للمسافات الكبيرة بين الكائنات. إذا كانت المعلمتان - r و p تساوي اثنين ، فإن هذه المسافة تتزامن مع المسافة الإقليدية.

    نسبة الخلاف.يستخدم هذا المقياس عندما تكون البيانات فئوية. يتم حساب هذه المسافة بالصيغة:

    قواعد الرابطة أو الرابطة

    في الخطوة الأولى ، عندما يكون كل كائن كتلة منفصلة ، يتم تحديد المسافات بين هذه الكائنات بواسطة المقياس المختار.

    ومع ذلك ، عندما ترتبط عدة كائنات معًا ، يُطرح السؤال ، كيف يجب تحديد المسافات بين المجموعات؟

    بمعنى آخر ، تحتاج إلى قاعدة صلة أو ارتباط لمجموعتين. هناك العديد من الاحتمالات هنا: على سبيل المثال ، يمكنك ربط مجموعتين معًا عندما يكون أي كائنين في المجموعتين أقرب إلى بعضهما البعض من مسافة الارتباط المقابلة.

    بمعنى آخر ، يمكنك استخدام "أقرب قاعدة الجوار" لتحديد المسافة بين المجموعات ؛ تسمى هذه الطريقة طريقة الارتباط الفردي.

    هذه القاعدة تبني عناقيد "ليفية" ، أي العناقيد "مرتبطة ببعضها البعض" فقط بواسطة عناصر فردية تصادف أن تكون أقرب إلى بعضها البعض من العناصر الأخرى.

    بدلاً من ذلك ، يمكنك استخدام العناصر المجاورة في المجموعات البعيدة عن بعضها البعض من بين أزواج الميزات الأخرى. هذه الطريقة تسمى طريقة الارتباط الكامل.

    هناك أيضًا العديد من الطرق الأخرى للانضمام إلى المجموعات ، على غرار تلك التي تمت مناقشتها.

    اتصال واحد (أقرب طريقة جار). كما هو موضح أعلاه ، في هذه الطريقة ، يتم تحديد المسافة بين مجموعتين من خلال المسافة بين أقرب كائنين (أقرب جيران) في مجموعات مختلفة.

    يجب أن تقوم هذه القاعدة ، بمعنى ما ، بربط الكائنات معًا لتشكيل مجموعات ، وتميل المجموعات الناتجة إلى تمثيلها بواسطة "سلاسل" طويلة.

    اتصال كامل (طريقة من أبعد الجيران).في هذه الطريقة ، يتم تعريف المسافات بين المجموعات على أنها أكبر مسافة بين أي كائنين في مجموعات مختلفة (أي "الجيران الأبعد").

    يعني الزوج غير مرجح.في هذه الطريقة ، يتم حساب المسافة بين مجموعتين مختلفتين على أنها متوسط ​​المسافة بين جميع أزواج الكائنات الموجودة فيها.

    تكون هذه الطريقة فعالة عندما تشكل الكائنات في الواقع "بساتين" مختلفة ، ولكنها تعمل بشكل جيد بنفس القدر في حالات التكتلات الممتدة (النوع "المتسلسل").

    لاحظ أنه في كتابهم Sneath and Sokal (1973) قدم الاختصار UPGMA للإشارة إلى هذه الطريقة على أنها طريقة المجموعة الزوجية غير الموزونة باستخدام المتوسطات الحسابية.

    مرجح الزوجي يعني.تتطابق هذه الطريقة مع طريقة المتوسط ​​الزوجي غير الموزون ، باستثناء أن حجم المجموعات المعنية (أي عدد العناصر التي تحتوي عليها) يُستخدم كعامل ترجيح في الحسابات.

    لذلك ، يجب استخدام الطريقة المقترحة (بدلاً من الطريقة السابقة) عند افتراض أحجام الكتلة غير المتكافئة.

    قدم Sneath و Sokal (1973) الاختصار WPGMA للإشارة إلى هذه الطريقة على أنها طريقة المجموعة الزوجية الموزونة باستخدام المتوسطات الحسابية.

    طريقة النقطه الوسطى غير مرجح. في هذه الطريقة ، يتم تعريف المسافة بين مجموعتين على أنها المسافة بين مركزي جاذبيتهم.

    انتباه!

    استخدم Sneath and Sokal (1973) الاختصار UPGMC للإشارة إلى هذه الطريقة على أنها طريقة المجموعة الزوجية غير الموزونة باستخدام متوسط ​​النقطه الوسطى.

    طريقة النقطه الوسطى المرجحة (الوسيط). هذه الطريقة مماثلة للطريقة السابقة ، باستثناء أنه يتم استخدام الأوزان في العمليات الحسابية لمراعاة الفرق بين أحجام الكتلة (أي عدد العناصر الموجودة فيها).

    لذلك ، إذا كانت هناك (أو يشتبه في وجود) فروق ذات دلالة إحصائية في أحجام العنقود ، فإن هذه الطريقة هي الأفضل من الطريقة السابقة.

    استخدم Sneath and Sokal (1973) الاختصار WPGMC للإشارة إليه على أنه طريقة المجموعة الزوجية الموزونة باستخدام متوسط ​​النقطه الوسطى.

    طريقة وارد.تختلف هذه الطريقة عن جميع الطرق الأخرى لأنها تستخدم طرق ANOVA لتقدير المسافات بين المجموعات.

    تقلل الطريقة من مجموع المربعات (SS) لأي مجموعتين (افتراضيتين) يمكن تشكيلهما في كل خطوة.

    يمكن العثور على التفاصيل في Ward (1963). بشكل عام ، تبدو الطريقة فعالة للغاية ، لكنها تميل إلى تكوين مجموعات صغيرة.

    في وقت سابق تمت مناقشة هذه الطريقة من حيث "الأشياء" التي يجب تجميعها. في جميع أنواع التحليل الأخرى ، عادة ما يتم التعبير عن السؤال الذي يهم الباحث من حيث الملاحظات أو المتغيرات.

    اتضح أن التجميع ، من خلال الملاحظات والمتغيرات على حد سواء ، يمكن أن يؤدي إلى نتائج مثيرة للاهتمام للغاية.

    على سبيل المثال ، تخيل أن باحثًا طبيًا يقوم بجمع بيانات عن الخصائص (المتغيرات) المختلفة لحالات المرضى (الملاحظات) المصابين بأمراض القلب.

    قد يرغب المحقق في تجميع الملاحظات (للمرضى) لتحديد مجموعات من المرضى الذين يعانون من أعراض مماثلة.

    في الوقت نفسه ، قد يرغب الباحث في تجميع المتغيرات لتحديد مجموعات المتغيرات المرتبطة بحالة فيزيائية مماثلة.

    بعد هذه المناقشة حول ما إذا كان سيتم تجميع الملاحظات أو المتغيرات ، قد يتساءل المرء ، لماذا لا تتجمع في كلا الاتجاهين؟

    تحتوي الوحدة النمطية لتحليل الكتلة على إجراء ربط ثنائي الاتجاه فعال للقيام بذلك.

    ومع ذلك ، يتم استخدام التجميع ثنائي الاتجاه (نادرًا نسبيًا) في الظروف التي يُتوقع فيها أن تساهم كل من الملاحظات والمتغيرات في وقت واحد في اكتشاف مجموعات ذات مغزى.

    لذا ، بالعودة إلى المثال السابق ، يمكننا أن نفترض أن الباحث الطبي يحتاج إلى تحديد مجموعات من المرضى المتشابهة فيما يتعلق بمجموعات معينة من خصائص الحالة الجسدية.

    تنشأ الصعوبة في تفسير النتائج التي تم الحصول عليها من حقيقة أن أوجه التشابه بين المجموعات المختلفة قد تأتي من (أو تكون سببًا) بعض الاختلاف في المجموعات الفرعية للمتغيرات.

    لذلك ، فإن المجموعات الناتجة غير متجانسة بطبيعتها. ربما يبدو الأمر ضبابيًا بعض الشيء في البداية ؛ في الواقع ، مقارنة بطرق التحليل العنقودي الأخرى الموصوفة ، ربما يكون التجميع ثنائي الاتجاه هو أقل الطرق استخدامًا.

    ومع ذلك ، يعتقد بعض الباحثين أنه يوفر أداة قوية لتحليل البيانات الاستكشافية (لمزيد من المعلومات ، انظر وصف هارتيجان لهذه الطريقة (Hartigan ، 1975)).

    K تعني الطريقة

    تختلف طريقة التجميع هذه بشكل كبير عن الطرق التجميعية مثل الاتحاد (تجميع الأشجار) والاتحاد ثنائي الاتجاه. افترض أن لديك بالفعل فرضيات حول عدد المجموعات (عن طريق الملاحظة أو المتغير).

    يمكنك إخبار النظام بتشكيل ثلاث مجموعات بالضبط بحيث تكون مختلفة قدر الإمكان.

    هذا هو بالضبط نوع المشكلة التي تحلها خوارزمية K-Means. بشكل عام ، طريقة K-mean يبني بالضبط K مجموعات متباعدة متباعدة قدر الإمكان.

    في مثال الحالة الجسدية ، قد يكون لدى الباحث الطبي "حدس" من تجربته السريرية أن مرضاهم ينقسمون عمومًا إلى ثلاث فئات مختلفة.

    انتباه!

    إذا كان الأمر كذلك ، فإن وسائل المقاييس المختلفة للمعلمات الفيزيائية لكل مجموعة ستوفر طريقة كمية لتمثيل فرضيات المحقق (على سبيل المثال ، المرضى في المجموعة 1 لديهم معلمة عالية من 1 ، معامل أقل من 2 ، إلخ).

    من وجهة نظر حسابية ، يمكنك التفكير في هذه الطريقة على أنها تحليل للتباين "معكوس". يبدأ البرنامج بـ K عناقيد تم اختيارها عشوائيًا ، ثم يغير انتماء الكائنات إليها من أجل:

    1. تقليل التباين داخل المجموعات ،
    2. تعظيم التباين بين المجموعات.

    تشبه هذه الطريقة التحليل العكسي للتباين (ANOVA) من حيث أن اختبار الأهمية في ANOVA يقارن التباين بين المجموعة مقابل التباين داخل المجموعة في اختبار الفرضية التي تعني أن المجموعة تختلف عن بعضها البعض.

    في K-mean clustering ، ينقل البرنامج الكائنات (أي الملاحظات) من مجموعة (عنقود) إلى أخرى من أجل الحصول على النتيجة الأكثر أهمية عند إجراء تحليل التباين (ANOVA).

    عادةً ، بمجرد الحصول على نتائج تحليل الكتلة K-mean ، يمكن للمرء حساب الوسائل لكل عنقود لكل بُعد لتقييم كيفية اختلاف المجموعات عن بعضها البعض.

    من الناحية المثالية ، يجب أن تحصل على وسائل مختلفة جدًا لمعظم ، إن لم يكن كل ، القياسات المستخدمة في التحليل.

    المصدر: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

    تصنيف الأشياء حسب خصائصها

    تحليل الكتلة (تحليل الكتلة) - مجموعة من الأساليب الإحصائية متعددة الأبعاد لتصنيف الكائنات وفقًا لخصائصها ، وتقسيم مجموع الكائنات إلى مجموعات متجانسة قريبة من حيث تحديد المعايير ، واختيار كائنات مجموعة معينة.

    الكتلة هي مجموعة من الكائنات التي تم تحديدها كنتيجة لتحليل الكتلة بناءً على مقياس معين للتشابه أو الاختلاف بين الكائنات.

    الهدف هو الموضوعات المحددة للدراسة التي يجب تصنيفها. الكائنات في التصنيف ، كقاعدة عامة ، هي ملاحظات. على سبيل المثال ، مستهلكو المنتجات أو البلدان أو المناطق أو المنتجات ، إلخ.

    على الرغم من أنه من الممكن إجراء التحليل العنقودي بواسطة المتغيرات. يحدث تصنيف الكائنات في التحليل العنقودي متعدد الأبعاد وفقًا لعدة معايير في وقت واحد.

    يمكن أن تكون هذه متغيرات كمية وفئوية ، اعتمادًا على طريقة تحليل الكتلة. لذلك ، فإن الهدف الرئيسي لتحليل الكتلة هو العثور على مجموعات من الكائنات المتشابهة في العينة.

    يمكن تقسيم مجموعة الأساليب الإحصائية متعددة المتغيرات لتحليل الكتلة إلى طرق هرمية (تكتلية وتقسيمية) وغير هرمية (طريقة k-mean ، تحليل الكتلة على مرحلتين).

    ومع ذلك ، لا يوجد تصنيف مقبول بشكل عام للطرق ، وأحيانًا تتضمن طرق التحليل العنقودي أيضًا طرقًا لبناء أشجار القرار والشبكات العصبية والتحليل التمييزي والانحدار اللوجستي.

    نطاق التحليل العنقودي ، نظرًا لتعدد استخداماته ، واسع جدًا. يستخدم التحليل العنقودي في الاقتصاد والتسويق وعلم الآثار والطب وعلم النفس والكيمياء وعلم الأحياء والإدارة العامة وعلم فقه اللغة والأنثروبولوجيا وعلم الاجتماع ومجالات أخرى.

    فيما يلي بعض الأمثلة على تطبيق التحليل العنقودي:

    • الطب - تصنيف الأمراض وأعراضها وطرق العلاج وتصنيف مجموعات المرضى ؛
    • التسويق - مهام تحسين خط إنتاج الشركة ، وتقسيم السوق حسب مجموعات السلع أو المستهلكين ، وتحديد المستهلك المحتمل ؛
    • علم الاجتماع - تقسيم المستجيبين إلى مجموعات متجانسة ؛
    • الطب النفسي - التشخيص الصحيح لمجموعات الأعراض أمر بالغ الأهمية لنجاح العلاج ؛
    • علم الأحياء - تصنيف الكائنات الحية حسب المجموعة ؛
    • الاقتصاد - تصنيف موضوعات الاتحاد الروسي حسب جاذبية الاستثمار.

    المصدر: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html

    معلومات عامة حول التحليل العنقودي

    يتضمن تحليل الكتلة مجموعة من خوارزميات التصنيف المختلفة. السؤال الشائع الذي يطرحه الباحثون في العديد من المجالات هو كيفية تنظيم البيانات المرصودة في هياكل مرئية.

    على سبيل المثال ، يهدف علماء الأحياء إلى تقسيم الحيوانات إلى أنواع مختلفة من أجل وصف الاختلافات بينها بشكل هادف.

    تتمثل مهمة تحليل الكتلة في تقسيم المجموعة الأولية من الكائنات إلى مجموعات من كائنات متشابهة ومتقاربة. تسمى هذه المجموعات المجموعات.

    بمعنى آخر ، يعد تحليل الكتلة إحدى طرق تصنيف الكائنات وفقًا لخصائصها. من المرغوب فيه أن يكون لنتائج التصنيف تفسير مفيد.

    يتم استخدام النتائج التي تم الحصول عليها من خلال طرق التحليل العنقودي في مختلف المجالات. في التسويق ، هو تقسيم المنافسين والمستهلكين.

    في الطب النفسي ، يعد التشخيص الصحيح للأعراض مثل جنون العظمة والفصام وما إلى ذلك أمرًا بالغ الأهمية لنجاح العلاج.

    في الإدارة ، يعتبر تصنيف الموردين أمرًا مهمًا ، وتحديد حالات الإنتاج المماثلة التي يحدث فيها الزواج. في علم الاجتماع ، تقسيم المستجيبين إلى مجموعات متجانسة. في الاستثمار في المحفظة ، من المهم تجميع الأوراق المالية وفقًا لتشابهها في اتجاه العائد من أجل تجميع ، بناءً على المعلومات التي تم الحصول عليها حول سوق الأوراق المالية ، محفظة استثمارية مثالية تسمح بتعظيم العائد على الاستثمارات لدرجة معينة من المخاطر .

    بشكل عام ، كلما كان من الضروري تصنيف كمية كبيرة من المعلومات من هذا النوع وتقديمها في شكل مناسب لمزيد من المعالجة ، تبين أن التحليل العنقودي مفيد للغاية وفعال.

    يسمح تحليل الكتلة بالنظر في كمية كبيرة إلى حد ما من المعلومات وضغط بشكل كبير على مجموعات كبيرة من المعلومات الاجتماعية والاقتصادية ، مما يجعلها مضغوطة ومرئية.

    انتباه!

    يعتبر التحليل العنقودي ذا أهمية كبيرة فيما يتعلق بمجموعات السلاسل الزمنية التي تميز التنمية الاقتصادية (على سبيل المثال ، الظروف الاقتصادية العامة والسلع).

    هنا من الممكن تحديد الفترات التي كانت فيها قيم المؤشرات المقابلة قريبة جدًا ، وكذلك تحديد مجموعات السلاسل الزمنية ، والتي تكون ديناميكياتها متشابهة إلى حد كبير.

    في مشاكل التنبؤ الاجتماعي والاقتصادي ، من الواعد جدًا الجمع بين التحليل العنقودي والأساليب الكمية الأخرى (على سبيل المثال ، مع تحليل الانحدار).

    المميزات والعيوب

    يسمح تحليل الكتلة بتصنيف موضوعي لأي كائنات تتميز بعدد من الميزات. هناك عدد من الفوائد التي يمكن الحصول عليها من هذا:

    1. يمكن تفسير المجموعات الناتجة ، أي لوصف نوع المجموعات الموجودة بالفعل.
    2. يمكن استبعاد المجموعات الفردية. يكون هذا مفيدًا في الحالات التي حدثت فيها أخطاء معينة في مجموعة البيانات ، ونتيجة لذلك تنحرف قيم مؤشرات الكائنات الفردية بشكل حاد. عند تطبيق تحليل الكتلة ، تقع هذه الكائنات في مجموعة منفصلة.
    3. لمزيد من التحليل ، يمكن فقط اختيار المجموعات التي لها خصائص الاهتمام.

    مثل أي طريقة أخرى ، فإن التحليل العنقودي له عيوب وقيود معينة. على وجه الخصوص ، يعتمد تكوين المجموعات وعددها على معايير التقسيم المختارة.

    عند تقليل مجموعة البيانات الأولية إلى نموذج أكثر إحكاما ، قد تحدث بعض التشوهات ، وقد يتم أيضًا فقد الميزات الفردية للكائنات الفردية بسبب استبدالها بخصائص القيم المعممة لمعلمات الكتلة.

    طرق

    حاليًا ، هناك أكثر من مائة خوارزميات تجميع مختلفة معروفة. يتم تفسير تنوعها ليس فقط من خلال الأساليب الحسابية المختلفة ، ولكن أيضًا من خلال المفاهيم المختلفة الكامنة وراء التجميع.

    تطبق حزمة Statistica طرق التجميع التالية.

    • الخوارزميات الهرمية - التجميع الشجري. تعتمد الخوارزميات الهرمية على فكرة التجميع المتسلسل. في الخطوة الأولى ، يتم اعتبار كل كائن على أنه كتلة منفصلة. في الخطوة التالية ، سيتم دمج بعض المجموعات الأقرب لبعضها البعض في مجموعة منفصلة.
    • طريقة K- يعني. هذه الطريقة هي الأكثر شيوعا. إنه ينتمي إلى مجموعة ما يسمى بالطرق المرجعية لتحليل الكتلة. يتم تعيين عدد المجموعات K بواسطة المستخدم.
    • جمعية ثنائية الاتجاه. عند استخدام هذه الطريقة ، يتم إجراء التجميع في وقت واحد بواسطة المتغيرات (الأعمدة) ونتائج المراقبة (الصفوف).

    يتم تنفيذ إجراء الربط ثنائي الاتجاه عندما يكون من المتوقع أن يوفر التجميع المتزامن على المتغيرات والملاحظات نتائج مفيدة.

    نتائج الإجراء عبارة عن إحصائيات وصفية حول المتغيرات والملاحظات ، بالإضافة إلى مخطط ألوان ثنائي الأبعاد يتم تمييز قيم البيانات عليه باللون.

    من خلال توزيع اللون ، يمكنك الحصول على فكرة عن المجموعات المتجانسة.

    تطبيع المتغيرات

    يرتبط تقسيم المجموعة الأولية من الكائنات إلى مجموعات بحساب المسافات بين الكائنات واختيار الكائنات ، والتي تكون المسافة بينها هي الأصغر على الإطلاق.

    الأكثر شيوعًا هي المسافة الإقليدية (الهندسية) المألوفة لنا جميعًا. يتوافق هذا المقياس مع الأفكار البديهية حول قرب الأجسام في الفضاء (كما لو تم قياس المسافات بين الأشياء باستخدام شريط قياس).

    ولكن بالنسبة لمقياس معين ، يمكن أن تتأثر المسافة بين الأشياء بشدة بالتغيرات في المقاييس (وحدات القياس). على سبيل المثال ، إذا تم قياس إحدى الميزات بالمليمترات ، ثم تم تحويل قيمتها إلى سنتيمترات ، فإن المسافة الإقليدية بين الكائنات ستتغير بشكل كبير. سيؤدي هذا إلى حقيقة أن نتائج التحليل العنقودي قد تختلف بشكل كبير عن النتائج السابقة.

    إذا تم قياس المتغيرات بوحدات قياس مختلفة ، فإن تطبيعها الأولي مطلوب ، أي تحويل البيانات الأولية ، مما يحولها إلى كميات بلا أبعاد.

    يؤدي التطبيع إلى تشويه هندسة المساحة الأصلية بشدة ، مما قد يؤدي إلى تغيير نتائج التجميع

    في حزمة Statistica ، يتم تسوية أي متغير x وفقًا للصيغة:

    للقيام بذلك ، انقر بزر الماوس الأيمن فوق اسم المتغير وحدد تسلسل الأوامر من القائمة التي تفتح: Fill / Standardize Block / Standardize Columns. ستصبح قيم المتغير العادي مساوية للصفر ، وستصبح الفروق مساوية للواحد.

    K- يعني الأسلوب في الإحصاء

    تقسم طريقة K-mean مجموعة من الكائنات إلى عدد معين K من مجموعات مختلفة تقع على مسافات كبيرة من بعضها البعض قدر الإمكان.

    عادةً ، بمجرد الحصول على نتائج تحليل الكتلة K-mean ، يمكن للمرء حساب المتوسطات لكل مجموعة لكل بُعد لتقييم كيفية اختلاف المجموعات عن بعضها البعض.

    من الناحية المثالية ، يجب أن تحصل على وسائل مختلفة جدًا لمعظم القياسات المستخدمة في التحليل.

    تعد القيم الإحصائية F التي تم الحصول عليها لكل بُعد مؤشرًا آخر لمدى تمييز البعد المقابل بين المجموعات.

    كمثال ، ضع في اعتبارك نتائج دراسة استقصائية شملت 17 موظفًا في مؤسسة حول الرضا عن مؤشرات الجودة المهنية. يحتوي الجدول على إجابات لأسئلة الاستبيان على مقياس من عشر نقاط (1 هو الحد الأدنى للدرجة ، 10 هو الحد الأقصى).

    تتوافق أسماء المتغيرات مع إجابات الأسئلة التالية:

    1. SLT - مجموعة من الأهداف الشخصية وأهداف المنظمة ؛
    2. OSO - الشعور بالإنصاف في الأجور ؛
    3. يحدد لاحقًا - القرب الإقليمي من المنزل ؛
    4. PEW - الشعور بالرفاهية الاقتصادية ؛
    5. CR - النمو الوظيفي ؛
    6. ZhSR - الرغبة في تغيير الوظائف ؛
    7. OSB هو شعور بالرفاهية الاجتماعية.

    باستخدام هذه البيانات ، من الضروري تقسيم الموظفين إلى مجموعات واختيار أدوات التحكم الأكثر فعالية لكل منهم.

    في الوقت نفسه ، يجب أن تكون الاختلافات بين المجموعات واضحة ، وداخل المجموعة ، يجب أن يكون المستجيبون متشابهين قدر الإمكان.

    حتى الآن ، تعطي معظم الاستطلاعات الاجتماعية نسبة مئوية فقط من الأصوات: يتم النظر في العدد الرئيسي للإجابات الإيجابية ، أو النسبة المئوية لأولئك غير الراضين ، ولكن لا يتم النظر في هذه المسألة بشكل منهجي.

    في أغلب الأحيان ، لا يُظهر المسح اتجاهات الوضع. في بعض الحالات ، من الضروري حساب ليس عدد الأشخاص "المؤيدين" أو "المعارضين" ، ولكن حساب المسافة ، أو مقياس التشابه ، أي تحديد مجموعات الأشخاص الذين يفكرون في الأمر نفسه.

    يمكن استخدام إجراءات تحليل الكتلة لتحديد ، على أساس بيانات المسح ، بعض العلاقات القائمة بالفعل للميزات وإنشاء تصنيفها على هذا الأساس.

    انتباه!

    إن وجود أي فرضيات مسبقة لعالم اجتماع عند العمل مع إجراءات التحليل العنقودي ليس شرطًا ضروريًا.

    في برنامج Statistica ، يتم إجراء تحليل الكتلة على النحو التالي.

    عند اختيار عدد المجموعات ، يجب أن تسترشد بما يلي: يجب ألا يكون عدد المجموعات ، إن أمكن ، كبيرًا جدًا.

    يجب أن تكون المسافة التي تم فيها ضم كائنات مجموعة معينة ، إذا أمكن ، أقل بكثير من المسافة التي ينضم عندها شيء آخر إلى هذه المجموعة.

    عند اختيار عدد المجموعات ، غالبًا ما توجد عدة حلول صحيحة في نفس الوقت.

    نحن مهتمون ، على سبيل المثال ، بكيفية ارتباط الإجابات على أسئلة الاستبيان بالموظفين العاديين وإدارة المؤسسة. لذلك ، نختار K = 2. لمزيد من التقسيم ، يمكنك زيادة عدد المجموعات.

    1. اختيار الملاحظات مع أقصى مسافة بين مراكز الكتلة ؛
    2. فرز المسافات واختيار الملاحظات على فترات منتظمة (الإعداد الافتراضي) ؛
    3. خذ مراكز المراقبة الأولى وأرفق باقي الأشياء بها.

    الخيار 1 مناسب لأغراضنا.

    غالبًا ما "تفرض" العديد من خوارزميات التجميع بنية غير متأصلة في البيانات وتسبب إرباكًا للباحث. لذلك ، من الضروري للغاية تطبيق العديد من خوارزميات التحليل العنقودي واستخلاص النتائج بناءً على تقييم عام لنتائج الخوارزميات.

    يمكن عرض نتائج التحليل في مربع الحوار الذي يظهر:

    إذا حددت علامة التبويب رسم بياني للوسائل ، فسيتم رسم رسم بياني لإحداثيات مراكز المجموعات:


    يتوافق كل سطر متقطع في هذا الرسم البياني مع إحدى المجموعات. يتوافق كل قسم من المحور الأفقي للرسم البياني مع أحد المتغيرات المدرجة في التحليل.

    يتوافق المحور الرأسي مع متوسط ​​قيم المتغيرات للكائنات المضمنة في كل مجموعة.

    يمكن ملاحظة أن هناك اختلافات كبيرة في موقف مجموعتين من الناس تجاه مهنة الخدمة في جميع القضايا تقريبًا. فقط في قضية واحدة يوجد إجماع كامل - بمعنى الرفاهية الاجتماعية (OSB) ، أو بالأحرى ، الافتقار إليها (2.5 نقطة من 10).

    يمكن افتراض أن المجموعة 1 تمثل العمال وأن المجموعة 2 تمثل الإدارة. يشعر المدراء برضا أكبر عن التطوير الوظيفي (CR) ، وهو مزيج من الأهداف الشخصية والأهداف التنظيمية (SOLs).

    لديهم شعور أعلى بالرفاهية الاقتصادية (SEW) وشعور بالمساواة في الأجور (SWA).

    فهم أقل قلقًا بشأن القرب من المنزل مقارنة بالعمال ، ربما بسبب مشاكل النقل الأقل. أيضًا ، لدى المديرين رغبة أقل في تغيير الوظائف (JSR).

    على الرغم من حقيقة أن العمال ينقسمون إلى فئتين ، إلا أنهم يقدمون نفس الإجابات نسبيًا على معظم الأسئلة. بمعنى آخر ، إذا كان هناك شيء لا يناسب المجموعة العامة للموظفين ، فإن الأمر نفسه لا يناسب الإدارة العليا ، والعكس صحيح.

    يتيح لنا تنسيق الرسوم البيانية أن نستنتج أن رفاهية مجموعة ما تنعكس في رفاهية مجموعة أخرى.

    المجموعة 1 غير راضية عن القرب الإقليمي من المنزل. هذه المجموعة هي الجزء الرئيسي من العمال الذين يأتون بشكل أساسي إلى الشركة من أجزاء مختلفة من المدينة.

    لذلك ، من الممكن أن تعرض على الإدارة العليا تخصيص جزء من الأرباح لبناء مساكن لموظفي المؤسسة.

    شوهدت اختلافات كبيرة في موقف مجموعتين من الناس تجاه مهنة الخدمة. هؤلاء الموظفون الراضون عن النمو الوظيفي ، والذين لديهم تطابق كبير بين الأهداف الشخصية وأهداف المنظمة ، ليس لديهم رغبة في تغيير وظائفهم ويشعرون بالرضا عن نتائج عملهم.

    على العكس من ذلك ، فإن الموظفين الذين يرغبون في تغيير وظائفهم وغير راضين عن نتائج عملهم غير راضين عن المؤشرات المذكورة أعلاه. يجب أن تولي الإدارة العليا اهتمامًا خاصًا للوضع الحالي.

    يتم عرض نتائج تحليل التباين لكل سمة من خلال الضغط على زر تحليل التباين.

    يتم عرض مجاميع مربعات انحرافات الكائنات عن مراكز الكتلة (SS داخل) ومجموع مربعات الانحرافات بين مراكز الكتلة (SS Between) وقيم إحصائيات F ومستويات الأهمية p.

    انتباه!

    على سبيل المثال ، مستويات الأهمية للمتغيرين كبيرة جدًا ، وهو ما يفسره العدد القليل من الملاحظات. في النسخة الكاملة من الدراسة ، والتي يمكن العثور عليها في العمل ، تم رفض الفرضيات حول مساواة وسائل مراكز الكتلة عند مستويات أهمية أقل من 0.01.

    يعرض زر حفظ التصنيفات والمسافات عدد الكائنات المضمنة في كل مجموعة ومسافات الكائنات إلى مركز كل مجموعة.

    يوضح الجدول أرقام الحالة (CASE_NO) التي تتكون منها العناقيد بأرقام CLUSTER والمسافات من مركز كل مجموعة (DISTANCE).

    يمكن كتابة المعلومات حول الكائنات التي تنتمي إلى المجموعات في ملف واستخدامها في مزيد من التحليل. في هذا المثال ، أظهرت مقارنة النتائج التي تم الحصول عليها مع الاستبيانات أن المجموعة 1 تتكون أساسًا من العمال العاديين ، والمجموعة 2 - من المديرين.

    وبالتالي ، يمكن ملاحظة أنه عند معالجة نتائج المسح ، تبين أن التحليل العنقودي طريقة قوية تسمح باستخلاص النتائج التي لا يمكن الوصول إليها من خلال إنشاء رسم بياني للمتوسطات أو عن طريق حساب النسبة المئوية للرضا عن مؤشرات مختلفة من جودة الحياة العملية.

    تجميع الشجرة هو مثال على خوارزمية هرمية ، مبدأها هو تجميع العناصر الأقرب بالتسلسل أولاً ، ثم المزيد والمزيد من العناصر البعيدة عن بعضها البعض في كتلة.

    تبدأ معظم هذه الخوارزميات من مصفوفة تشابه (مسافات) ، ويتم اعتبار كل عنصر فردي في البداية كمجموعة منفصلة.

    بعد تحميل وحدة تحليل الكتلة واختيار الانضمام (تجميع الشجرة) ، يمكنك تغيير المعلمات التالية في نافذة إدخال معلمات التجميع:

    • البيانات الأولية (الإدخال). يمكن أن تكون في شكل مصفوفة من البيانات المدروسة (البيانات الأولية) وفي شكل مصفوفة المسافات (مصفوفة المسافة).
    • تجميع الملاحظات (العنقودية) (الحالات (الأولية)) أو المتغيرات (المتغير (الأعمدة)) ، ووصف حالة الكائن.
    • مقاييس المسافة. هنا يمكنك تحديد المقاييس التالية: المسافات الإقليدية ، والمسافات الإقليدية المربعة ، ومسافة المدينة (مانهاتن) ، ومقياس مسافة تشيبيتشيف ، والقوة ...) ، والنسبة المئوية للاختلاف (نسبة الخلاف).
    • طريقة التجميع (قاعدة الدمج (الربط)). الخيارات التالية ممكنة هنا: الارتباط الفردي ، الارتباط الكامل ، متوسط ​​مجموعة الزوج غير الموزون ، المتوسط ​​المرجح لمجموعة الزوجين) ، النقطه الوسطى غير الموزون للمجموعة الزوجية ، النقطه الوسطى المرجحة للمجموعة الزوجية (الوسيط) ، طريقة وارد.

    نتيجة للتجميع ، تم بناء مخطط شجري أفقي أو عمودي - رسم بياني يتم من خلاله تحديد المسافات بين الكائنات والعناقيد عندما يتم دمجها بشكل تسلسلي.

    يتيح لك الهيكل الشجري للرسم البياني تحديد المجموعات بناءً على العتبة المحددة - مسافة معينة بين المجموعات.

    بالإضافة إلى ذلك ، يتم عرض مصفوفة المسافات بين الكائنات الأصلية (مصفوفة المسافة) ؛ يعني والانحرافات المعيارية لكل كائن مصدر (الإحصاء المميز).

    بالنسبة للمثال المدروس ، سنقوم بإجراء تحليل عنقودي للمتغيرات باستخدام الإعدادات الافتراضية. يظهر مخطط الأسنان الناتج في الشكل.


    يرسم المحور الرأسي للتشجير المسافات بين الأشياء وبين الكائنات والعناقيد. إذن ، المسافة بين المتغيرين SEB و OSD تساوي خمسة. يتم دمج هذه المتغيرات في الخطوة الأولى في مجموعة واحدة.

    يتم رسم المقاطع الأفقية لمخطط dendrogram على مستويات مقابلة لمسافات العتبة المحددة لخطوة تجميع معينة.

    يتضح من الرسم البياني أن السؤال "الرغبة في تغيير الوظائف" (JSR) يشكل مجموعة منفصلة. بشكل عام فإن الرغبة في الإغراق في أي مكان تزور الجميع على قدم المساواة. علاوة على ذلك ، فإن المجموعة المنفصلة هي مسألة القرب الإقليمي من المنزل (LHB).

    من حيث الأهمية ، فهو في المرتبة الثانية ، مما يؤكد الاستنتاج حول الحاجة إلى بناء المساكن ، والذي تم إجراؤه وفقًا لنتائج الدراسة باستخدام طريقة K-mean.

    يتم الجمع بين مشاعر الرفاهية الاقتصادية (PEW) والمساواة في الأجور (PWA) - وهذه مجموعة من القضايا الاقتصادية. يتم أيضًا الجمع بين التقدم الوظيفي (CR) ومجموعة الأهداف الشخصية وأهداف المنظمة (COL).

    طرق التجميع الأخرى ، وكذلك اختيار أنواع أخرى من المسافات ، لا تؤدي إلى تغيير كبير في مخطط الأسنان.

    نتائج:

    1. يعد تحليل الكتلة أداة قوية لتحليل البيانات الاستكشافية والبحث الإحصائي في أي مجال موضوع.
    2. يطبق برنامج Statistica كلا من الأساليب الهرمية والهيكلية لتحليل الكتلة. تعود مزايا هذه الحزمة الإحصائية إلى قدراتها الرسومية. يتم توفير تمثيلات بيانية ثنائية وثلاثية الأبعاد للمجموعات التي تم الحصول عليها في فضاء المتغيرات المدروسة ، وكذلك نتائج الإجراء الهرمي لتجميع الكائنات.
    3. من الضروري تطبيق العديد من خوارزميات التحليل العنقودي واستخلاص النتائج بناءً على تقييم عام لنتائج الخوارزميات.
    4. يمكن اعتبار تحليل الكتلة ناجحًا إذا تم إجراؤه بطرق مختلفة ، وتمت مقارنة النتائج والعثور على أنماط شائعة ، وتم العثور على مجموعات مستقرة بغض النظر عن طريقة التجميع.
    5. يسمح لك تحليل الكتلة بتحديد مواقف المشكلة وتحديد طرق حلها. لذلك ، يمكن اعتبار طريقة الإحصاء غير البارامترية هذه جزءًا لا يتجزأ من تحليل النظام.