الاثنين، 9 ديسمبر 2019

كيفية استخدام أداة Data Miner لاستخراج البيانات من صفحات الويب

إذا كنت تقوم بنسخ ولصق الأشياء خارج صفحات الويب ووضعها يدويًا في جداول البيانات ، فأنت لا تعرف ما هي البيانات (أو تجريد الويب) ، أو تعرف ما هي عليه ولكنك غير مهتم حقًا بفكرة تعلم كيفية الرمز فقط لتوفير نفسك بضع ساعات من النقر.
وفي كلتا الحالتين ، هناك الكثير من أدوات إلغاء البيانات التي لا تحتوي على تعليمات برمجية والتي يمكن أن تساعدك على الخروج ، وامتداد Data Miner Chrome هو أحد الخيارات الأكثر سهولة. إذا كنت محظوظًا ، فسيتم بالفعل تضمين المهمة التي تحاول القيام بها في دفتر وصفات الأداة ، ولن تضطر إلى متابعة خطوات النقر والنقر التي ينطوي عليها إنشاء الخاصة بك.
كيف تعمل اداه Data Miner  :
Data Miner يساعدك في الحصول على البيانات من صفحات الويب وفي ملفات Excel / CSV ذات التنسيق الجيد من خلال الاطلاع على نص الصفحات التي قمت بتحميلها. هذا يعني أنك ستحتاج إلى أن تكون مرتاحًا على الأقل بدرجة كافية مع HTML للتعرف على بعض الأنماط ، لكن لا شيء واسع النطاق. بالتأكيد سوف تساعد مهارات HTML و / أو جافا سكريبت المتقدمة في بعض المهام ولكنها ليست ضرورية لمعظم الأشياء. يجب أن يكون لديك أيضًا مهارات جدول بيانات أساسية على الأقل حتى تكون متأكداً من أن مخرجاتك نظيفة ومنظمة.
1. إعداد Data Miner
باستخدام Chrome أو متصفح Chromium آخر ، قم بتثبيت الامتداد . سيظهر رمز pickaxe الخاص بالملحق في شريط الأدوات ، وسيؤدي النقر فوقه إلى نقلك إلى صفحة يمكنك من خلالها إعداد حساب. تمنحك النسخة المجانية 500 ورقة في الشهر ، وهو ما قد يكون كافياً بالنسبة لك إلا إذا كان هذا ما تفعله يوميًا.
2. تحميل البيانات
أولاً ، انتقل إلى الصفحة التي تريد استخراج البيانات منها. إذا كان لديك صفحات متعددة من البيانات أو بعضها مخفي خلف الأزرار ، فلا بأس بذلك - هناك طرق للتعامل مع ذلك. في الوقت الحالي ، ستحتاج فقط إلى عينة تمثيلية حتى يعرف البرنامج ما الذي تبحث عنه.
3. تحقق من صفحة
بعد ذلك ، افتح Data Miner وتحقق من علامة التبويب "عام" للتعرف على الوصفات الموجودة. إذا كنت تستخدم موقعًا مشهورًا ، فقد يكون شخص آخر قد أنشأ عملية بالفعل للحصول على البيانات التي تبحث عنها ، مما سيوفر عليك كثيرًا من الوقت. على سبيل المثال ، تشتمل مواقع مثل Google و Amazon و Twitter على الكثير من الوصفات المتاحة لمساعدتك على الفور في تنزيل الروابط والأسعار والنصوص وغيرها من البيانات. يمكنك اختبار الوصفات من خلال النقر على زر "تشغيل" لرؤية معاينة لجداول البيانات التي يولدها عامل منجم البيانات. يمكنك أيضًا تعديل الوصفات الموجودة لتناسب احتياجاتك عن طريق الضغط على زر "تعديل".
4. نوع الصفحة
حسنًا ، لذلك لم تعمل أي وصفات مناسبة لك. حسناً ، يمكنك أن تصنعها بنفسك. فقط انقر على زر "وصفة جديدة" للبدء.
سيكون خيارك الأول "صفحة القائمة" أو "صفحة التفاصيل".
حدد "قائمة الصفحة" إذا كنت تحاول الحصول على صفوف متعددة من البيانات من صفحة واحدة. على سبيل المثال ، قد ترغب في تنزيل الرابط وعنوان الصفحة الخاص بكل نتيجة بحث أو الحصول على تاريخ ومحتوى المنشورات في الخلاصة. ربما يكون هذا هو النوع الأكثر شيوعًا والذي سنستخدمه هنا كعرض تجريبي. (الخطوات لصفحة التفاصيل هي نفسها بشكل أساسي.)
حدد "صفحة التفاصيل" إذا كان لديك الكثير من المعلومات المختلفة حول شيء واحد في صفحة واحدة - صفحة المنتج ، على سبيل المثال ، حيث تحتاج إلى الحصول على سعرها ووصفها ورابطها وتصنيفها ووضعها كلها في صف واحد .
الخطوة 5: اصنع صفوفك
اضغط على الزر "بحث" وحرك الماوس حتى يغطي مربع التحديد الأصفر جميع البيانات التي قد تحتاجها لإدخال واحد في جدول البيانات النهائي. على سبيل المثال ، إذا كنت تقوم بتنزيل نتائج البحث ، فسوف تحتاج إلى إبراز مساحة كبيرة بما يكفي لتضمين العنوان وعنوان URL والوصف ، بحيث يمكنك وضع كل منها في أعمدة منفصلة في الخطوة التالية. لتحديد اختيارك ، اضغط على مفتاح Shift . لا تقلق إذا نقرت بطريق الخطأ ؛ Data Miner يحفظ كل تقدم الوصفة الخاص بك حتى إذا قمت بالانتقال بعيدًا عن الصفحة.
ستحتاج بعد ذلك إلى تحديد أحد المربعات على الأقل في قسم "فئات العنصر" أو "نوع عنصر HTML". من الناحية المثالية ، سترى التحديد متماثلًا لتغطية كل عنصر في الصفحة في نفس الفئة مثل العنصر الذي حددته.
إذا وجدت أن المحدد لا يغطي كل ما تحتاجه ، فحاول اختيار عنصر واحد فقط والضغط على "تحديد الأصل". سيؤدي هذا إلى جعل المربع أكبر وربما يلتقط كل ما تحتاجه. إذا لم يكن الأمر كذلك ، فقد تحتاج إلى البحث في HTML قليلاً وتحديد فئات وأنواع العناصر التي تحتاجها. عندما تكون في حالة شك ، اضغط على "تحديد الأصل" حتى يصبح المربع أكبر حجم ممكن دون تغطية أكثر من إدخال قائمة واحد ، حيث يمنحك هذا مزيدًا من المرونة عند تحديد الأعمدة.
تمنحك Data Miner خيار "عرض عنصر HTML في الأسفل" كما يتيح لك الكتابة في محددات مخصصة. إذا كنت تريد أن تقولي ، فاستحوذ على جميع الروابط الموجودة في الصفحة باستخدام فئة "المنتج" ، يمكنك فقط كتابة المنتج. هذا هو المكان الذي سيكون فيه بعض المعرفة HTML / CSS الأساسية في متناول اليد حقا.
بمجرد عودتك إلى قائمة الصف الرئيسي ، سترى "عدد الصفوف" مع عدد الإدخالات التي ستنشئها الوصفة في جدول بيانات. إذا لم يكن هذا كل شيء ، فسوف تحتاج إلى التحقق من اختيار الصف الخاص بك.
6. تقسيم البيانات الخاصة بك إلى أعمدة
بمجرد تحديد جميع البيانات للصفوف الخاصة بك ، حان الوقت لجعلها تبدو جميلة عن طريق تقسيمها إلى فئات أعمدة مختلفة. يجب أن يكون كل تحديد تقوم به هنا جزءًا فرعيًا من المربع الذي حددته لصفوفك.
لإنشاء عمود ، فقط اكتب اسمًا له واستخدم الزر "بحث" لتحديد ما تريد استخراجه ، تمامًا كما فعلت مع الصفوف. من المحتمل أن تكون البيانات الأكثر شيوعًا هي النص أو عنوان URL أو عنوان URL للصورة. قد يكون الحصول على عناوين URL بالمرور فوق الروابط النصية أمرًا صعبًا بعض الشيء ؛ قد تضطر إلى الضغط على "تحديد الوالد" حتى تصل إلى مستوى يكون نوع العنصر فيه <a> ، وهو علامة HTML للارتباطات.
للتأكد من أن لديك النوع الصحيح من البيانات في العمود الخاص بك ، فقط اضغط على أيقونة العين على الجانب الأيمن من اسم كل عمود ، بجانب الرقم الذي يوضح لك عدد الأعمدة التي تم اختيارها. سيُظهر لك ذلك معاينة لكل إدخال صف لهذا العمود. إذا كان هناك شيء ما ، فارجع وقم بتعديل العلامات والأنواع التي اخترتها لتحديد الصفوف. لا تخف من فتح عارض HTML والبحث عن الأنماط المرتبطة بالبيانات التي تحاول الحصول عليها.
7. أخبر Data Miner عن كيفية الوصول إلى الصفحة التالية
إذا كان لديك صفحات متعددة من البيانات لاستخراجها ، فربما لا ترغب في النقر فوق كل صفحة وتشغيل وصفتك مرارًا وتكرارًا. للتغلب على ذلك ، ما عليك سوى إخبار Data Miner بمكان العثور على زر التنقل الذي تحتاجه للنقر للوصول إلى الصفحة التالية. احرص على عدم إخبارها بالنقر فوق شيء مثل "الصفحة 2" ، حيث ستنتقل بعد ذلك إلى ، أيضًا ، الصفحة 2. مرة أخرى ، تأكد من تحديد عنصر <a> ، واستخدام زر اختبار التنقل للتأكد من أنها تعمل.
8. أخبر Data Miner مكان النقر أو التمرير لتحميل البيانات
لا تقوم بعض الصفحات بتحميل البيانات حتى تنقر على شيء ما أو تقوم بالتمرير لأسفل. لحسن الحظ ، يمكن أن عامل البيانات مينر تفعل هذه الأشياء أيضا! استخدم أداة "Find" في الأعلى (يجب أن تكون جيدًا في ذلك الآن) لتحديد العنصر الذي تحتاج إلى معالجته ، ثم ضع المحدد في المربع المناسب واختبره للتأكد من عمله.
قد يكون تحديد أي محدد سيتم تنشيط العنصر أو شريط التمرير اللامحدود أمرًا صعبًا ، لكن معرفة HTML الأساسية وبعض التجارب والخطأ ستصل بك إلى هنا. تعتمد معظم الأشياء التي ستحتاج إلى معالجتها هنا على جافا سكريبت ، لكن Data Miner تحتاج فقط إلى معرفة محدد CSS المرتبط بالإجراء لتنشيطه ، لذلك يجب ألا تحتاج إلى تغيير أي كود في معظم الحالات.
تتيح لك الخطوة التالية أيضًا إضافة JS مخصص للقيام بكل ما تريد ، ولكن هذا متقدم جدًا ويتجاوز ما نحتاج إليه للتخلص الأساسي.
9. حفظ وتشغيل الوصفة
تهانينا! حان الوقت الآن لمعرفة ما إذا كان كل شيء قد تجمّع. قم بتشغيل الوصفة على الصفحة التي تتصفحها وتحقق من المعاينة لمعرفة ما إذا كانت صفوفك وأعمدتك تفعل ما يفترض بها. إذا لم يكن كذلك ، يمكنك العودة وتحرير الوصفة.
Data Miner Run 1
إذا كان كل شيء يتصرف كما يجب ، فيمكنك استخدام زر "الصفحة التالية" لإخبار الكاشطة بعدد الصفحات التي يجب أن يزحف إليها ومدى السرعة التي يجب أن يذهب بها / (قد يتسبب السير بسرعة كبيرة في أن يقوم النظام بالإشارة إليك على أنه روبوت).
بمجرد حصولك على جميع البيانات التي تحتاجها ، يمكنك اختيار تنسيق الملف الذي تريد استخدامه لتنزيله.
أواجه مشكلة؛ هل توجد طريقة أسهل؟
إذا لم يكن برنامج Data Miner يعمل من أجلك ، فهناك الكثير من أدوات تجريد البيانات المتاحة: ParseHub ، Scraper ، Octoparse ، Import.io ، VisualScraper ، وما إلى ذلك. ولكن لا يزال يتعين عليك معرفة بعض الشيء على الأقل عن HTML وكيفية تنظيم الويب. ما يجعل Data Miner لطيفًا بشكل خاص للمبتدئين هو مكتبة الوصفات ذات المصادر الجماعية ، والتي يمكن أن تساعدك على تجنب حتى أصغر مقابلة مع الكود. هذا ، إلى جانب حزمة الخردة الشهرية المجانية السخية إلى حد ما ، يجعلها أداة جيدة للغاية لمعظم الاحتياجات.

تعليقات فيسبوك
0 تعليقات بلوجر

ليست هناك تعليقات:

إرسال تعليق

إتصل بنا

الإسم الكريم البريد الإلكتروني مهم الرسالة مهم