python - Regular Expression Processing HTML -


मुझे सभी HTML टैग (जैसे & lt; p & gt; , & lt ; Img & gt; , आदि।) एक वेब पेज स्रोत कोड में है, लेकिन मैं & lt; br & gt; और & lt; br / & gt; रखना चाहते हैं। मैंने कोशिश की है:

  re.sub (r '& lt; [^ & gt;] +? & Gt;', u '', html, flags = re.I)  < / प्री> 

यह केवल पहला लक्ष्य प्राप्त करता है, लेकिन यह & lt; br & gt; या & lt; br / & gt; नहीं रख सकता है। r '& lt; [^ & gt; br] +? & Gt;' या तो लक्ष्य को प्राप्त नहीं करेगा।

सही नियमित अभिव्यक्ति क्या है?

  & lt; ((?! \ Bbr \ b)।) *? & Gt;  

यह आपके मामले के लिए काम करना चाहिए। नकारात्मक नजरिए सुनिश्चित करेगा & lt; br & gt; नहीं चुना गया है।

संपादित करें:

  & lt; (?: (?! \ Bbr \ /? (? = & Gt;))।) *? & Gt;  

यह कोशिश करें अगर आपके पास ऐसी बेतुका बातें हैं & lt; a href = "http: //host.domain.tld/br" & gt;

डेमो देखें।


Comments

Popular posts from this blog

apache - 504 Gateway Time-out The server didn't respond in time. How to fix it? -

c# - .net WebSocket: CloseOutputAsync vs CloseAsync -

c++ - How to properly scale qgroupbox title with stylesheet for high resolution display? -