SCF與天然語言處理爲你的網站賦能

天然語言的內容有不少,今天本文所介紹的天然語言處理部分是「文本摘要」和「關鍵詞提取」,不少朋友都應該有本身的博客,在作博客的時候,常常會發一些文章,這些文章發出去了,有的很容易被搜索引擎檢索,有的則很難,那麼有沒有什麼方法,讓博客對搜索引擎友好一些呢?這裏有一個好方法:git

那就是填寫網頁的Description還有Keywords。難道每次都須要咱們本身去填寫麼?仍是說有一些奇淫巧技能夠嘗試。github

本文將會經過Python的jieba和snownlp進行關鍵詞提取和文本摘要實現。sql

準備資源

下載如下資源:json

https://github.com/fxsjy/jieba
https://github.com/isnowfy/snownlp複製代碼

下載以後,新建文件夾,將這些文件中對應的文件拷貝:bash

拷貝以後,創建文件index.py測試

# -*- coding: utf8 -*-
import json
import jieba.analyse
from snownlp import SnowNLP


def FromSnowNlp(text, summary_num):
    s = SnowNLP(text)
    return s.summary(summary_num)


def FromJieba(text, keywords_type, keywords_num):
    if keywords_type == "tfidf":
        return jieba.analyse.extract_tags(text, topK=keywords_num)
    elif keywords_type == "textrank":
        return jieba.analyse.textrank(text, topK=keywords_num)
    else:
        return None


def main_handler(event, context):
    text = event["text"]
    summary_num = event["summary_num"]
    keywords_num = event["keywords_num"]
    keywords_type = event["keywords_type"]

    return {"keywords": FromJieba(text, keywords_type, keywords_num),
            "summary": FromSnowNlp(text, summary_num)}複製代碼

超簡單的代碼有沒有!優化

上傳文件

在SCF網頁上面創建一個項目:ui

提交方法選擇上傳zip:搜索引擎

而後咱們壓縮文件,並更名爲index.zip:spa

測試

測試以前能夠適當調整一下咱們的配置:

而後進行input模板的輸入:

模板能夠是:

{
  "text": "前來參觀的人羣絡繹不絕。在「兩彈歷程館」裏,講解員龔照怡正在給參觀的學生介紹:「這是我國第一顆核航彈的模型,長3米、直徑1.5米左右,後面就是它爆炸時產生的蘑菇雲。」學生們一邊聽一邊認真記錄。記者看到,館內利用聲、光、電等手段,經過實物、模型、影像資料和場景復原,展示「兩彈」研製工做的艱辛歷程。「算盤、計算尺這些文物都是激勵後人艱苦奮鬥的好教材。咱們讓文物‘回家’,讓觀衆看到當年科研人員住什麼樣的房子,用什麼樣的用具,瞭解在那麼艱苦的環境下,他們是怎樣研製‘兩彈’的,怎麼樣讓中國挺起了民族的脊樑。」四川省梓潼兩彈城紅色旅遊開發有限公司副總經理賈魯蓉告訴記者,做爲愛國主義教育基地,這裏目前存有2萬多份圖片資料、500多萬字文字資料、3000餘件實物。在「兩彈歷程館」的不遠處是「將軍樓」。1983年5月20日,時任國防部部長張愛萍將軍來到長卿山視察中物院,看到科學家們在大山溝裏堅苦卓絕地工做,即興賦詩一首:「二十二年難忘情,崎嶇道路信踏平。屢建奇功震寰宇,更創奇蹟驚鬼神。」",
  "summary_num": 5,
  "keywords_num": 5,
  "keywords_type": "tfidf"
}複製代碼

而後點擊測試:

應用

至此,咱們完成了簡單的關鍵詞提取功能和簡單的抽取式文本摘要過程,固然,這部分依舊是一個簡單的拋磚引玉,由於摘要這裏還有聲稱是文本摘要,並且抽取式摘要也可能會根據不一樣的文章類型,有着不一樣的特點方法,因此我這裏只是經過一個簡單的Demo來實現一個小功能,幫助你們作一個簡單的SEO優化,你們能夠在作博客的時候,增長keywords或者description字段,而後每次從sql得到文章數據的時候,將這兩個部分放到meta中,會大大的提升頁面被索引的機率哦~!

相關文章
相關標籤/搜索