花了几天时间研究了下语言的规则,找到了一些规律,利用我们网站有的词库和信息,对数据进行匹配分析,可以查找到一个人说的话,虽然数据不是百分之百精确,但是准确程度达到了70%左右。
地址:http://www.yandui.com/api/ApiAddAna.aspx
填写一个网站址就可以,最好是带人物的新闻地址,因为那里面出现语录的机会才会多一点。
例如:“刘德华携“子”同唱拜年歌 喜气洋洋迎新春(图)”
新闻地址:http://ent.163.com/08/0201/11/43K3TE6S00031H2L.html
查询结果:
刘德华:“我代表牛之家族,希望世界上的每个人都能开开心心,也将我两个儿子的红包捐作慈善用途。”
刘德华或儿子:“有子万事足。”
大家可能分析到,有些语录为什么没匹配到,因为那新闻里面有的用“刘德华”,有的用“华仔”,而“刘德华”的我们人物库里有的人物名,而“华仔”我们没有,所以有的语录没有匹配到。我们会尽量改进算法,大家只要努力完善我们的人物库,我们采集的信息就会越来越准确。我们也会适当的改进算法。
大家有好的想法,如何能够更精确的抓取到语录,可以去:http://blog.yandui.com/post/yijianshouji.html上告诉我们哦。

订阅我的BLOG(RSS)