python - Regular Expression Processing HTML -
मुझे सभी HTML टैग (जैसे & lt; p & gt;
, & lt ; Img & gt;
, आदि।) एक वेब पेज स्रोत कोड में है, लेकिन मैं & lt; br & gt;
और & lt; br / & gt;
रखना चाहते हैं। मैंने कोशिश की है:
re.sub (r '& lt; [^ & gt;] +? & Gt;', u '', html, flags = re.I)
< / प्री>यह केवल पहला लक्ष्य प्राप्त करता है, लेकिन यह
& lt; br & gt;
या& lt; br / & gt;
नहीं रख सकता है।r '& lt; [^ & gt; br] +? & Gt;'
या तो लक्ष्य को प्राप्त नहीं करेगा।सही नियमित अभिव्यक्ति क्या है?
& lt; ((?! \ Bbr \ b)।) *? & Gt;
यह आपके मामले के लिए काम करना चाहिए। नकारात्मक नजरिए सुनिश्चित करेगा & lt; br & gt;
नहीं चुना गया है।
संपादित करें:
& lt; (?: (?! \ Bbr \ /? (? = & Gt;))।) *? & Gt;
यह कोशिश करें अगर आपके पास ऐसी बेतुका बातें हैं & lt; a href = "http: //host.domain.tld/br" & gt;
डेमो देखें।
Comments
Post a Comment