人民網>>人民創投

“馬蜂窩”被捅了:這個在線旅游平台是內容的生產者還是搬運工?

蔡淑敏

2018年10月23日07:21  來源:人民網-國際金融報

近日,一個名為“乎睿數據”的團隊發現在線旅游平台馬蜂窩的數據異常,該團隊在馬蜂窩上發現了7454個抄襲賬號,這數千個賬號合計抄襲了572萬條餐飲點評,1221萬條酒店點評。

互聯網時代,最不缺的就是內容,但最稀缺的也是內容。

近日,一個名為“乎睿數據”的團隊發現在線旅游平台馬蜂窩的數據異常,該團隊通過抓取大眾點評、藝龍、攜程等網站與馬蜂窩進行對比,在馬蜂窩上發現了7454個抄襲賬號,這數千個賬號合計抄襲了572萬條餐飲點評,1221萬條酒店點評,佔馬蜂窩官網聲稱總點評數的85%。

一個名為“小聲比比”的微信公眾號發布了該團隊的數據分析結果,引發多方關注。

今日,馬蜂窩發布聲明稱,已對涉嫌虛假點評的賬號進行清理,自媒體文章所述的馬蜂窩用戶數量與事實和第三方機構數據都嚴重不符。

事實上,內容是馬蜂窩平台主打的特色,很多用戶使用和喜愛馬蜂窩也正是因為其平台上的原創內容。

今日晚間消息,北京馬蜂窩網絡科技有限公司已向北京市朝陽區人民法院提起訴訟,起訴數據分析團隊方深圳乎睿數據有限公司、自媒體作者丁子奎名譽侵權。

有意思的是,據界面報道,該自媒體人今晚將對馬蜂窩聲明中提到的“被查証的有組織攻擊行為”的說法做出回應。

馬蜂窩公司相關人士對此向《國際金融報》記者表示,馬蜂窩后續也會有相關回應。

內容來自原創還是搬運?

馬蜂窩官網顯示,平台自2006年上線運營,用戶數持續攀高,大部分用戶來自一線大城市,馬蜂窩凝聚的是一個高質量的旅游愛好者群體。依靠注冊用戶提供的大量一手信息,馬蜂窩已先后制作推出了各類目的地旅游攻略路書,路書設計精致、新穎,路書內容涵蓋當地吃住行游購娛等各方面豐富詳實的旅游信息。

公開資料顯示,馬蜂窩自2011年以來已經獲得了4輪融資,投資者中不乏今日資本、啟明創投、高瓴資本、淡馬錫等大型投資公司。

而此次指控馬蜂窩內容虛假的數據團隊則非常年輕。記者查閱企查查、啟信寶發現,深圳市乎睿數據有限公司成立於2018年1月11日,注冊資本102萬,其“乎睿”商標注冊於今年5月。

10月20日晚間,“小聲比比”發布上述文章,稱乎睿數據抓取了馬蜂窩上116萬家餐廳,並抽取了三分之一的樣本進行對比分析,最終在馬蜂窩上發現了7454個抄襲賬號,平均每個賬號從攜程、藝龍、美團、Agoda、Yelp上抄襲搬運了數千條點評,合計抄襲了572萬條餐飲點評,1221萬條酒店點評,佔到馬蜂窩官網聲稱總點評數的85%。

該團隊稱對抽取的賬號制定了一個非常嚴格的“抄襲標准”——一字不差的抄襲,才算抄襲,十句話有一句不同,就不算抄襲,以這個為抄襲標准,同時,以抄襲150個不同的大眾點評賬戶為”抄襲賬號“標准。

該團隊給出了幾點抄襲實錘:

這些抄襲賬號出現性別和同一天所在地點自相矛盾的情況;

部分賬號抄襲Yelp上的評論時調用了谷歌翻譯,並將翻譯錯誤一並搬運;

部分抄襲賬號還搬運了類似亂碼、廣告、新聞等不該抓取的內容。

此外,該自媒體文章還稱,除了這七千多個賬號,還存在15000個賬號在2015年中旬突然活躍,並在2016年初同時沉寂;且馬蜂窩的大部分用戶集中在周中寫點評,一到周末便斷崖式下跌。

21日晚間,“小聲比比”再度發文稱馬蜂窩開始毀滅証據並放出了7454位抄襲賬號主頁,記者隨即點擊了部分主頁發現,這些用戶的點評內容均為空白。

今日,馬蜂窩發布聲明稱,馬蜂窩是旅游平台而非本地生活服務網站,用戶分享的主要載體為游記、攻略與問答,馬蜂窩的 UGC 內容數據中,游記和攻略佔比為 78.91%,嗡嗡(旅行故事)佔比 7.92%,問答佔比 10.26%,而點評內容在馬蜂窩整體數據量中僅佔比 2.91%,涉嫌虛假點評的賬號數據在整體用戶中的佔比更是微乎其微,馬蜂窩已對這部分賬號進行清理。

對於大量用戶在2015年集中活躍,馬蜂窩解釋稱,2016年以前,馬蜂窩曾激勵用戶發表評論,點評數據出現快速增長。

馬蜂窩表示,公司平均每周處理 26000 條違規廣告信息,查封 15000 個違規賬號。自媒體將不法商家的違規行為歸結於馬蜂窩,與事實嚴重不符。

針對聲明中所稱的“已被查証的有組織攻擊行為”等內容,記者試圖聯系馬蜂窩公司相關人士尋求具體解釋,對方回應稱“目前以聲明內容為准”。

艾媒咨詢首席分析師張毅向記者表示,主打內容的互聯網平台是通過內容來反映用戶的活躍度,利用抄襲或搬運的方法來造成虛假繁榮對平台來說確實是一種引導消費的手段,但是一旦被曝光,將會對平台造成很大的影響。

技術人士:網絡爬虫抓取評論很簡單

一位互聯網從業者向《國際金融報》記者表示,簡單來講,此次事件,就是利用一些技術手段,用機器代替人,進行重復性勞動,類似新聞聚合類的網站、搜索引擎、論壇廣告等都會使用爬虫技術。

他表示,項目在冷啟動的時候會用爬虫數據,自己網站活躍度不高,UGC不夠,隻能每天去爬點數據過來。

一位后端程序員在瀏覽了大眾點評和攜程之后稱,網絡爬虫想要獲取評論數據很簡單,這兩個網站本身的爬取難度不高,很多開源框架在網上有很清楚的教程,成本很低,甚至不需要學會爬虫的開發過程。

該技術人員向《國際金融報》記者介紹了具體的爬取過程——網絡爬虫先設置好目標網站的url,這些頁面的布局都是有固定格式的,爬虫工作時,按照事先設置好的爬取規則,抓取網頁上的特定元素,元素內就包含著目標數據。

關於馬蜂窩用戶評論中出現的亂碼、廣告等內容,該技術人士稱,這是因為網站識別出來是爬虫了,就返回一些設置好的信息給爬虫,爬虫誤以為是真實內容。

他還表示,爬虫和反爬虫永遠在更新,但是爬虫還是會更先進一些,更快地產生應對策略,有些爬虫還能把自己偽裝成百度,對其他網站進行訪問,這樣能更安全地避開反爬虫策略。

內容搬運工層出不窮

從上個世紀90年代起,互聯網就面臨著信息爆炸的問題,從這個角度看,在互聯網時代,最不缺的就是內容,但是正因為信息泛濫,原創內容、優質內容才是這個時代所稀缺的,原創內容生產者也成為各大內容平台所爭搶的資源。

今年7月,小紅書接到大量用戶反映稱,大眾點評疑冒用小紅書用戶名稱賬號,批量建立虛假賬號,抄襲及搬運用戶在小紅書發布的原創筆記。大眾點評隨后稱是新上線試運營的推薦欄目在未經授權的情況下對相關內容進行了違規轉載。

不僅是文字和圖片內容,視頻內容也逃不過被抄襲和搬運。

今年5月,抖音海外版Tik Tok第一季度登頂蘋果商店下載全球第一,引發張一鳴和馬化騰在朋友圈掐架,張一鳴在評論區中的一句“微信的借口封殺,微視的抄襲搬運擋不住抖音的步伐”似乎在暗指微視搬運抖音內容。

隨著短視頻行業的火爆,記者在網上搜索“搬運短視頻”時發現了大量關於如何搬運視頻、如何去水印的教程。

抄襲、搬運內容事件頻發,平台、用戶維權也有一定的難度。關於此次馬蜂窩評論內容疑似搬運事件,北京康達律師事務所韓驍律師向記者表示,根據《著作權法》,合理使用必須具有一定的正當目的或特殊的情形,如果馬蜂窩涉嫌抄襲用戶評論,其具有一定的營利目的,一般不應被認為是合理使用。

但是從事件本身來看,馬蜂窩是否構成侵犯著作權的行為,還需要充足的証據証明。韓驍律師稱,目前國際上普遍認可的判斷原則是實質性相似+接觸原則,即如果被控侵權作品的作者曾接觸過原告受著作權保護的作品,同時該被控侵權作品又與原告的作品存在內容上的實質性相似,除非有合理使用等法定抗辯理由,否則即可認定其為侵權作品。因此不論是判斷馬蜂窩是否構成侵權,還是類似內容平台的抄襲,都需要對侵權行為進行舉証,從而判斷是否構成侵權。

(責編:黃玲麗、張晨)

深度原創

特別策劃

    第二屆內容科技大賽總決賽 人民戰“疫”內容科技大賽 首屆人民網內容科技大賽總決賽 人民網內容科技創業創新長三角決賽
二維碼