पायथन की सिर्फ 1 लाइन के साथ डेटा एक्सप्लोरेशन

ब्लॉग

पायथन की सिर्फ 1 लाइन के साथ डेटा एक्सप्लोरेशन

इस पोस्ट में, आप देखेंगे कि आपके सभी मानक डेटा विश्लेषण 30 सेकंड से भी कम समय में केवल 1 लाइन पायथन के साथ किए जाते हैं। पंडों की रूपरेखा के चमत्कार।



वेनिला पांडा रास्ता (उबाऊ तरीका)

पायथन की सिर्फ 1 लाइन के साथ डेटा एक्सप्लोरेशन

पायथन में डेटा के साथ काम करने वाला कोई भी व्यक्ति पांडा पैकेज से परिचित होगा। यदि आप नहीं हैं, तो पांडा अधिकांश पंक्तियों-&-स्तंभ स्वरूपित डेटा के लिए गो-टू पैकेज है। यदि आपके पास पांडा नहीं है, तो अपने टर्मिनल में पाइप इंस्टॉल का उपयोग करके इसे स्थापित करना सुनिश्चित करें:



pip install pandas

अब, देखते हैं कि डिफ़ॉल्ट तरीके हमारे लिए क्या कर सकते हैं:

गूगल डोमेन जीथब पेज

पायथन की सिर्फ 1 लाइन के साथ डेटा एक्सप्लोरेशन
बहुत अच्छा, लेकिन नीरस भी... और कहाँ था तरीका कॉलम जाना?



ऊपर जो हो रहा है उससे अनजान लोगों के लिए:

किसी भी पांडा डेटाफ़्रेम में एक .describe () विधि होती है जो ऊपर दिए गए आउटपुट को लौटाती है। हालाँकि, इस पद्धति में किसी का ध्यान नहीं गया श्रेणीगत चर हैं। ऊपर हमारे उदाहरण में तरीका कॉलम पूरी तरह से आउटपुट से छोड़ा गया है।

देखते हैं कि क्या हम और बेहतर कर सकते हैं। (संकेत: हम कर सकते हैं!)

पांडा प्रोफाइलिंग (फैंसी तरीका)

पायथन की सिर्फ 1 लाइन के साथ डेटा एक्सप्लोरेशन
यह अभी रिपोर्ट की शुरुआत है।

आप इसे कैसे पसंद करेंगे यदि मैंने आपसे कहा कि मैं पायथन की सिर्फ 3 पंक्तियों के साथ निम्नलिखित आँकड़े तैयार कर सकता हूँ…? वास्तव में बस 1 लाइन अगर हम अपने आयात की गणना नहीं करते हैं।

  • अनिवार्य : प्रकार, अद्वितीय मान, अनुपलब्ध मान
  • मात्रात्मक आँकड़े जैसे न्यूनतम मान, Q1, माध्यिका, Q3, अधिकतम, रेंज, इंटरक्वेर्टाइल रेंज
  • वर्णनात्मक आँकड़े जैसे माध्य, विधा, मानक विचलन, योग, माध्य निरपेक्ष विचलन, भिन्नता का गुणांक, कर्टोसिस, तिरछापन
  • सबसे लगातार मान
  • हिस्टोग्राम
  • सहसंबंध अत्यधिक सहसंबद्ध चरों की हाइलाइटिंग, स्पीयरमैन, पियर्सन और केंडल मैट्रिसेस
  • लापता मूल्य मैट्रिक्स, गिनती, हीटमैप और लापता मूल्यों का डेंड्रोग्राम

(सुविधाओं की सूची सीधे से हैं पंडों की रूपरेखा GitHub )

वैसे हम पांडा प्रोफाइलिंग पैकेज का उपयोग कर सकते हैं! पंडों प्रोफाइलिंग पैकेज को स्थापित करने के लिए बस अपने टर्मिनल में पाइप इंस्टॉल का उपयोग करें:

चक्र यूआई प्रतिक्रिया देशी
pip install pandas_profiling

अनुभवी डेटा विश्लेषक पहली नज़र में फ़्लफ़ी और आकर्षक होने के लिए इसका उपहास कर सकते हैं, लेकिन यह निश्चित रूप से आपके डेटा का त्वरित प्रत्यक्ष प्रभाव प्राप्त करने के लिए उपयोगी हो सकता है:

पायथन की सिर्फ 1 लाइन के साथ डेटा एक्सप्लोरेशन
देखिए, 1 लाइन, जैसा मैंने वादा किया था! # नोक्लिकबैट

पहली चीज़ जो आप इसे देखेंगे अवलोकन (ऊपर चित्र देखें) जो आपको आपके डेटा और चरों के साथ-साथ कुछ बहुत ही उच्च-स्तरीय आँकड़े देता है चेतावनी चर, उच्च विषमता और अधिक के बीच उच्च सहसंबंध की तरह।

किमची कैसे खरीदें

लेकिन यह सब कुछ के करीब भी नहीं है। नीचे स्क्रॉल करने पर हम पाते हैं कि रिपोर्ट के कई हिस्से हैं, लेकिन केवल चित्रों के साथ इस 1-लाइनर के आउटपुट को दिखाने से कोई न्याय नहीं होगा, इसलिए मैंने इसके बजाय एक GIF बनाया है:

पायथन की सिर्फ 1 लाइन के साथ डेटा एक्सप्लोरेशन

मैं आपको इस पैकेज की विशेषताओं का पता लगाने की अत्यधिक अनुशंसा करता हूं, आखिरकार, यह कोड की सिर्फ एक पंक्ति है और आप इसे अपने भविष्य के डेटा विश्लेषण में उपयोगी पा सकते हैं।

import pandas as pd import pandas_profiling pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()

समापन विचार

यह वास्तव में बहुत तेज़ और छोटा था। मैंने अभी-अभी पंडों की प्रोफाइलिंग की खोज की और सोचा कि मैं साझा करूंगा!

#पायथन #पांडा #मशीन-लर्निंग #डेटा-विज्ञान #डेटा-विश्लेषण

ओरडाटासाइंस.कॉम

पायथन की सिर्फ 1 लाइन के साथ डेटा एक्सप्लोरेशन

इस पोस्ट में, आप देखेंगे कि आपके सभी मानक डेटा विश्लेषण 30 सेकंड से भी कम समय में केवल 1 लाइन पायथन के साथ किए जाते हैं। पंडों की रूपरेखा के चमत्कार।