输入:文本删除垃圾邮件URL
dsfdsf WWW。 cnn .com dksfj kdsfjkdjfdf www.google.com dkfjkdjfk w w w。雅 呼.CO mdfdd
输出:
dsfdsf dksfj kdsfjkdjfdf dkfjkdjfk mdfdd
我怎样写,做这在C#中的作用?
输入:文本删除垃圾邮件URL
dsfdsf WWW。 cnn .com dksfj kdsfjkdjfdf www.google.com dkfjkdjfk w w w。雅 呼.CO mdfdd
输出:
dsfdsf dksfj kdsfjkdjfdf dkfjkdjfk mdfdd
我怎样写,做这在C#中的作用?
首先在C#中学习RegEx (Regular Expression) facilities,然后您需要一个良好的RegEx that matches a URL。你需要改变它来管理带有空格的URL。
基本上你就必须实现两个步骤:
规范化意味着你会从你的输入中删除所有的空白和其他噪声的字符,然后你做一个将所有变音符,特殊字符等转码为基本的拉丁字母(这是为了将相同或相似的字形映射为单个字符,例如omicron和o看起来相同)。您需要保留从规范化版本的输入到原始输入的一对一映射。
然后,您将搜索标准输入的阻塞模式,检索原始输入中的相同模式并将其删除。
当然,这种方法不是故障安全的,实际上可能会出现误报。
一个很好的答案描述简单的过滤是如何注定可以在这里找到:
没有它可以是任何链接 – lars 2010-02-13 11:14:01