इस पोस्ट में, आप देखेंगे कि आपके सभी मानक डेटा विश्लेषण 30 सेकंड से भी कम समय में केवल 1 लाइन पायथन के साथ किए जाते हैं। पंडों की रूपरेखा के चमत्कार।
वेनिला पांडा रास्ता (उबाऊ तरीका)
पायथन में डेटा के साथ काम करने वाला कोई भी व्यक्ति पांडा पैकेज से परिचित होगा। यदि आप नहीं हैं, तो पांडा अधिकांश पंक्तियों-&-स्तंभ स्वरूपित डेटा के लिए गो-टू पैकेज है। यदि आपके पास पांडा नहीं है, तो अपने टर्मिनल में पाइप इंस्टॉल का उपयोग करके इसे स्थापित करना सुनिश्चित करें:
pip install pandas
अब, देखते हैं कि डिफ़ॉल्ट तरीके हमारे लिए क्या कर सकते हैं:
गूगल डोमेन जीथब पेज
बहुत अच्छा, लेकिन नीरस भी... और कहाँ था तरीका कॉलम जाना?
ऊपर जो हो रहा है उससे अनजान लोगों के लिए:
किसी भी पांडा डेटाफ़्रेम में एक .describe () विधि होती है जो ऊपर दिए गए आउटपुट को लौटाती है। हालाँकि, इस पद्धति में किसी का ध्यान नहीं गया श्रेणीगत चर हैं। ऊपर हमारे उदाहरण में तरीका कॉलम पूरी तरह से आउटपुट से छोड़ा गया है।
देखते हैं कि क्या हम और बेहतर कर सकते हैं। (संकेत: हम कर सकते हैं!)
पांडा प्रोफाइलिंग (फैंसी तरीका)
यह अभी रिपोर्ट की शुरुआत है।
आप इसे कैसे पसंद करेंगे यदि मैंने आपसे कहा कि मैं पायथन की सिर्फ 3 पंक्तियों के साथ निम्नलिखित आँकड़े तैयार कर सकता हूँ…? वास्तव में बस 1 लाइन अगर हम अपने आयात की गणना नहीं करते हैं।
- अनिवार्य : प्रकार, अद्वितीय मान, अनुपलब्ध मान
- मात्रात्मक आँकड़े जैसे न्यूनतम मान, Q1, माध्यिका, Q3, अधिकतम, रेंज, इंटरक्वेर्टाइल रेंज
- वर्णनात्मक आँकड़े जैसे माध्य, विधा, मानक विचलन, योग, माध्य निरपेक्ष विचलन, भिन्नता का गुणांक, कर्टोसिस, तिरछापन
- सबसे लगातार मान
- हिस्टोग्राम
- सहसंबंध अत्यधिक सहसंबद्ध चरों की हाइलाइटिंग, स्पीयरमैन, पियर्सन और केंडल मैट्रिसेस
- लापता मूल्य मैट्रिक्स, गिनती, हीटमैप और लापता मूल्यों का डेंड्रोग्राम
(सुविधाओं की सूची सीधे से हैं पंडों की रूपरेखा GitHub )
वैसे हम पांडा प्रोफाइलिंग पैकेज का उपयोग कर सकते हैं! पंडों प्रोफाइलिंग पैकेज को स्थापित करने के लिए बस अपने टर्मिनल में पाइप इंस्टॉल का उपयोग करें:
चक्र यूआई प्रतिक्रिया देशी
pip install pandas_profiling
अनुभवी डेटा विश्लेषक पहली नज़र में फ़्लफ़ी और आकर्षक होने के लिए इसका उपहास कर सकते हैं, लेकिन यह निश्चित रूप से आपके डेटा का त्वरित प्रत्यक्ष प्रभाव प्राप्त करने के लिए उपयोगी हो सकता है:
देखिए, 1 लाइन, जैसा मैंने वादा किया था! # नोक्लिकबैट
पहली चीज़ जो आप इसे देखेंगे अवलोकन (ऊपर चित्र देखें) जो आपको आपके डेटा और चरों के साथ-साथ कुछ बहुत ही उच्च-स्तरीय आँकड़े देता है चेतावनी चर, उच्च विषमता और अधिक के बीच उच्च सहसंबंध की तरह।
किमची कैसे खरीदें
लेकिन यह सब कुछ के करीब भी नहीं है। नीचे स्क्रॉल करने पर हम पाते हैं कि रिपोर्ट के कई हिस्से हैं, लेकिन केवल चित्रों के साथ इस 1-लाइनर के आउटपुट को दिखाने से कोई न्याय नहीं होगा, इसलिए मैंने इसके बजाय एक GIF बनाया है:
मैं आपको इस पैकेज की विशेषताओं का पता लगाने की अत्यधिक अनुशंसा करता हूं, आखिरकार, यह कोड की सिर्फ एक पंक्ति है और आप इसे अपने भविष्य के डेटा विश्लेषण में उपयोगी पा सकते हैं।
import pandas as pd import pandas_profiling pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()
समापन विचार
यह वास्तव में बहुत तेज़ और छोटा था। मैंने अभी-अभी पंडों की प्रोफाइलिंग की खोज की और सोचा कि मैं साझा करूंगा!
#पायथन #पांडा #मशीन-लर्निंग #डेटा-विज्ञान #डेटा-विश्लेषण
ओरडाटासाइंस.कॉम
पायथन की सिर्फ 1 लाइन के साथ डेटा एक्सप्लोरेशन
इस पोस्ट में, आप देखेंगे कि आपके सभी मानक डेटा विश्लेषण 30 सेकंड से भी कम समय में केवल 1 लाइन पायथन के साथ किए जाते हैं। पंडों की रूपरेखा के चमत्कार।