वेबसाइट डेटा स्क्रैपिंग पर सेमल्ट एक्सपर्ट - अच्छा और बुरा बॉट्स

वेब स्क्रैपिंग लंबे समय से आसपास रहा है और इसे वेबमास्टर्स, पत्रकारों, फ्रीलांसरों, प्रोग्रामर, गैर-प्रोग्रामर, मार्केटिंग शोधकर्ताओं, विद्वानों और सोशल मीडिया विशेषज्ञों के लिए उपयोगी माना जाता है। बॉट दो प्रकार के होते हैं: अच्छे बॉट और बुरे बॉट। अच्छे बॉट वेब सामग्री को अनुक्रमित करने के लिए खोज इंजन को सक्षम करते हैं और बाजार के विशेषज्ञों और डिजिटल विपणक द्वारा उच्च वरीयता दी जाती है। दूसरी ओर, खराब बॉट बेकार हैं और साइट की खोज इंजन रैंकिंग को नुकसान पहुंचाने का लक्ष्य रखते हैं। वेब स्क्रैपिंग की वैधता इस बात पर निर्भर करती है कि आपने किस प्रकार के बॉट्स का उपयोग किया है।

उदाहरण के लिए, यदि आप खराब बॉट्स का उपयोग कर रहे हैं जो विभिन्न वेब पेजों से सामग्री को अवैध रूप से उपयोग करने के इरादे से लाते हैं, तो वेब स्क्रैपिंग हानिकारक हो सकती है। लेकिन अगर आप अच्छे बॉट्स का उपयोग करते हैं और सेवा के हमलों, ऑनलाइन धोखाधड़ी, प्रतिस्पर्धी डेटा खनन रणनीतियों, डेटा चोरी, खाता अपहरण, अनधिकृत भेद्यता स्कैन, डिजिटल विज्ञापन धोखाधड़ी और बौद्धिक गुणों की चोरी सहित हानिकारक गतिविधियों से बचते हैं, फिर वेब स्क्रैपिंग प्रक्रिया इंटरनेट पर आपके व्यवसाय को बढ़ाने के लिए अच्छी और सहायक है।

दुर्भाग्य से, अधिकांश फ्रीलांसरों और स्टार्टअप्स को खराब बॉट्स पसंद हैं क्योंकि वे साझेदारी के लिए किसी भी आवश्यकता के बिना डेटा एकत्र करने का एक सस्ता, शक्तिशाली और व्यापक तरीका हैं। बड़ी कंपनियां, हालांकि, अपने लाभ के लिए कानूनी वेब स्क्रैपर्स का उपयोग करती हैं और अवैध वेब स्क्रैपर्स के साथ इंटरनेट पर अपनी प्रतिष्ठा को बर्बाद नहीं करना चाहती हैं। वेब स्क्रैपिंग की वैधता पर आम राय कोई मायने नहीं रखती क्योंकि पिछले कुछ महीनों में यह स्पष्ट हो गया है कि संघीय अदालत प्रणाली अधिक से अधिक अवैध वेब स्क्रैपिंग रणनीतियों को तोड़ रही है।

2000 में वापस वेब स्क्रैपिंग एक अवैध प्रक्रिया के रूप में शुरू हुई, जब वेबसाइटों को खंगालने के लिए बॉट्स और मकड़ियों का उपयोग बकवास माना जाता था। 2010 तक इस प्रक्रिया को इंटरनेट पर फैलने से रोकने के लिए कई प्रथाओं का अनुकूलन नहीं किया गया था। ईबे ने पहली बार बिडर के एज के खिलाफ प्रारंभिक निषेधाज्ञा दायर की थी, जिसमें दावा किया गया था कि वेबसाइट पर बॉट्स के इस्तेमाल ने ट्रेटास से चेट्ट कानूनों का उल्लंघन किया था। अदालत ने जल्द ही निषेधाज्ञा दी क्योंकि उपयोगकर्ताओं को साइट के नियमों और शर्तों से सहमत होना पड़ा और बड़ी संख्या में बॉट को निष्क्रिय कर दिया गया क्योंकि वे ईबे की कंप्यूटर मशीनों के लिए विनाशकारी हो सकते हैं। मुकदमा जल्द ही अदालत से बाहर हो गया, और ईबे ने सभी को वेब स्क्रैपिंग के लिए बॉट्स का उपयोग करने से रोक दिया, चाहे वे अच्छे हों या बुरे।

2001 में, एक ट्रैवल एजेंसी ने उन प्रतियोगियों पर मुकदमा दायर किया था जिन्होंने हानिकारक मकड़ियों और खराब बॉट्स की मदद से वेबसाइट से इसकी सामग्री को स्क्रैप किया था। न्यायाधीशों ने फिर से अपराध के खिलाफ कदम उठाए और पीड़ितों का पक्ष लेते हुए कहा कि वेब स्क्रैपिंग और बॉट दोनों का उपयोग विभिन्न ऑनलाइन व्यवसायों को नुकसान पहुंचा सकता है।

आजकल, शैक्षणिक, निजी और सूचना एकत्रीकरण के लिए, बहुत से लोग निष्पक्ष वेब स्क्रैपिंग प्रक्रियाओं पर भरोसा करते हैं, और इस संबंध में बहुत सारे वेब स्क्रैपिंग टूल विकसित किए गए हैं। अब अधिकारियों का कहना है कि उन सभी उपकरण विश्वसनीय नहीं हैं, लेकिन जो भुगतान या प्रीमियम संस्करणों में आते हैं, वे मुफ्त वेब स्क्रैपर्स से बेहतर हैं।

2016 में, कांग्रेस ने खराब बॉट्स को लक्षित करने और अच्छे बॉट्स के पक्ष में पहला कानून पारित किया था। बेहतर ऑनलाइन टिकट बिक्री (बीओटीएस) अधिनियम का गठन किया गया था, जो अवैध सॉफ्टवेयर के उपयोग पर प्रतिबंध लगाता है जो वेबसाइटों को लक्षित कर सकता है, उनके खोज इंजन रैंकों को नुकसान पहुंचा सकता है और उनके व्यवसायों को नष्ट कर सकता है। निष्पक्षता के मामले हैं। उदाहरण के लिए, लिंक्डइन ने बहुत से उपकरण खर्च किए हैं जो खराब बॉट्स को ब्लॉक या खत्म करते हैं और अच्छे बॉट्स को प्रोत्साहित करते हैं। जैसा कि अदालतें वेब स्क्रैपिंग की वैधता का फैसला करने की कोशिश कर रही हैं, कंपनियां अपने डेटा चोरी कर रही हैं।