python - Regular Expression Processing HTML -
मुझे सभी HTML टैग (जैसे & lt; p & gt; , & lt ; Img & gt; , आदि।) एक वेब पेज स्रोत कोड में है, लेकिन मैं & lt; br & gt; और & lt; br / & gt; रखना चाहते हैं। मैंने कोशिश की है:
re.sub (r '& lt; [^ & gt;] +? & Gt;', u '', html, flags = re.I)< / प्री>यह केवल पहला लक्ष्य प्राप्त करता है, लेकिन यह
& lt; br & gt;या& lt; br / & gt;नहीं रख सकता है।r '& lt; [^ & gt; br] +? & Gt;'या तो लक्ष्य को प्राप्त नहीं करेगा।सही नियमित अभिव्यक्ति क्या है?
& lt; ((?! \ Bbr \ b)।) *? & Gt; यह आपके मामले के लिए काम करना चाहिए। नकारात्मक नजरिए सुनिश्चित करेगा & lt; br & gt; नहीं चुना गया है।
संपादित करें:
& lt; (?: (?! \ Bbr \ /? (? = & Gt;))।) *? & Gt; यह कोशिश करें अगर आपके पास ऐसी बेतुका बातें हैं & lt; a href = "http: //host.domain.tld/br" & gt;
डेमो देखें।
Comments
Post a Comment