2010-02-13 109 views
0

输入:文本删除垃圾邮件URL

dsfdsf WWW。 cnn .com dksfj kdsfjkdjfdf www.google.com dkfjkdjfk w w w。雅 呼.CO mdfdd

输出:

dsfdsf dksfj kdsfjkdjfdf dkfjkdjfk mdfdd

我怎样写,做这在C#中的作用?

+0

没有它可以是任何链接 – lars 2010-02-13 11:14:01

回答

1

基本上你就必须实现两个步骤:

  1. 正常化
  2. 过滤

规范化意味着你会从你的输入中删除所有的空白和其他噪声的字符,然后你做一个将所有变音符,特殊字符等转码为基本的拉丁字母(这是为了将相同或相似的字形映射为单个字符,例如omicron和o看起来相同)。您需要保留从规范化版本的输入到原始输入的一对一映射。

然后,您将搜索标准输入的阻塞模式,检索原始输入中的相同模式并将其删除。

当然,这种方法不是故障安全的,实际上可能会出现误报。

一个很好的答案描述简单的过滤是如何注定可以在这里找到:

How do you implement a good profanity filter?